DeepSeek el 8 de abril envió silenciosamente una prueba en tres modos: división en tres carriles de Rapidez, Experto y Visual. La comunidad lo ve como el último calentamiento antes del lanzamiento oficial de la V4.
(Antecedentes: DeepSeek V4 rechaza a Nvidia y busca a Huawei. ¡Ali, Bit Dong y Tencent se apresuran a comprar chips Ascend 950PR!)
(Información de contexto: ¿Hasta dónde ha llegado la batalla en la que DeepSeek V4 declara abandonar a Nvidia? ¿“Cómputo independiente” en la IA de China?)
Índice de este artículo
Alternar
A las primeras horas del 8 de abril, DeepSeek actualizó simultáneamente el sitio web y la app, y la interfaz se convirtió en tres opciones de modo. Esto no es un lanzamiento formal completo de funciones, sino una prueba anticipada para algunos usuarios; pero en cuanto salió el mensaje, la comunidad lo vinculó de inmediato con el cronograma de lanzamiento de la V4.
La asignación de los tres modos es bastante clara:
Modo Rapidez (Fast Mode) es la opción predeterminada, orientada a conversaciones cotidianas y respuestas inmediatas. Usa un modelo liviano de baja latencia: no hay límites de uso. Sin embargo, la compatibilidad de adjuntos se limita a la extracción de texto y no procesa imágenes ni voz.
Modo Experto (Expert Mode) está destinado a tareas complejas de razonamiento, y admite un modo de pensamiento profundo. Las pruebas de la comunidad muestran que un solo razonamiento puede activar más de 500 segundos de tiempo de pensamiento. Este modo requiere esperar en horas de alta demanda y no admite carga de adjuntos ni de voz. Actualmente todavía se encuentra en fase de prueba y no está abierto a todos los usuarios.
Modo Visual (Vision Mode) es el más simbólico de los tres. Esta es la primera vez que DeepSeek admite oficialmente una entrada visual en el lado del consumidor. Las capacidades multimodales ya no son solo opciones técnicas a nivel de API, sino que se dirigen directamente a los usuarios comunes.
La lógica general es: dividir el consumo de cómputo por tipo de tarea. Las necesidades de alta frecuencia y baja demanda van por el canal de Rapidez; el razonamiento de alta exigencia va por el canal de Experto; y las entradas de texto e imagen van por el canal Visual. Este diseño en sí no es nuevo, pero DeepSeek es el primero entre los modelos líderes en China en hacerlo así a nivel de producto de consumo.
La conversación de la comunidad sobre esta prueba se centró rápidamente en una duda técnica.
Algunos usuarios de prueba descubrieron que la calidad de las respuestas del modo Experto mejora apenas en comparación con la del modo Rapidez, y la brecha no es tan grande como se imaginaba. Más importante aún: algunos usuarios preguntaron directamente al propio modelo, y la respuesta fue que la arquitectura subyacente de los dos modos es la misma, y que la diferencia proviene principalmente del ajuste del system prompt.
Si esto es cierto, la esencia del “modo Experto” se parece más a un prompt del sistema calibrado, en lugar de ser un modelo de razonamiento independiente.
DeepSeek no ha respondido oficialmente a esta objeción. Desde una perspectiva externa hay dos interpretaciones posibles: una es que se trata solo de una configuración temporal en la fase de implementación gradual, y que la verdadera separación de modelos se activará después de que se lance la V4; la otra es que el propósito del diseño por capas no es un cambio a nivel de modelo en sí, sino controlar el consumo de cómputo mediante diferentes presupuestos de razonamiento y configuraciones del sistema, para que más usuarios puedan usar el servicio al mismo tiempo.
La interfaz de los tres modos, por sí sola, es una mejora desde la perspectiva de la experiencia del usuario. Pero la V4 que está conectada detrás es, de hecho, el peso real de esta actualización.
El equipo de DeepSeek ya confirmó que la V4 se pospone hasta abril, y la razón principal es el trabajo de adaptación profunda de los chips Ascend de Huawei. Las especificaciones técnicas conocidas son bastante ambiciosas: escala de 1 billón de parámetros, prueba de capacidad de codificación en SWE-bench con 81% de tasa de aprobación, precio de API de $0.30/MTok, y una serie de tecnologías de memoria de largo plazo desarrolladas por cuenta propia llamadas Engram: un mecanismo de memoria condicional que permite que el modelo conserve preferencias del usuario y contexto a través de conversaciones.
Pero lo más valioso que se debe observar de la V4 es la elección del cómputo a nivel de base.
Si la V4 se implementa realmente completa en chips nacionales como Huawei Ascend y Cambricon, se convertiría en el primer modelo grande de uso masivo a escala en el lado del consumidor que pase completamente por alto el ecosistema CUDA de Nvidia (aunque, debido a que sabemos que hay muchos chips de Nvidia introducidos de contrabando en China, la situación real detrás es aún más compleja).