Genesis II amplía el conjunto de datos de educación en IA sintética de QVAC a 148 mil millones de tokens

El departamento de investigación en inteligencia artificial de Tether Data, QVAC, ha presentado la última versión de su conjunto de datos sintéticos de código abierto, marcando un avance sustancial en las capacidades de preentrenamiento de modelos de IA. La nueva versión introduce 107 mil millones de tokens adicionales, llevando el conjunto de datos total a 148 mil millones de tokens que abarcan 19 dominios enfocados en la educación—estableciéndolo como el conjunto de datos sintéticos públicamente disponible más grande del mundo para el desarrollo de IA.

Avance en capacidades de división sintética y razonamiento

El conjunto de datos Genesis II introduce un cambio fundamental en la forma en que se estructuran los datos sintéticos para el entrenamiento. En lugar de una simple acumulación de tokens, QVAC implementó un enfoque de “división sintética” que segmenta el contenido educativo en dominios especializados, cada uno optimizado para objetivos de aprendizaje específicos. Esta metodología permite un control más granular sobre los parámetros de entrenamiento del modelo.

Una característica distintiva de esta versión es la introducción del “Razonamiento a Nivel de Opción”, un enfoque de entrenamiento novedoso que guía a los modelos de IA a través de marcos de resolución de problemas de opción múltiple. A diferencia de las generaciones anteriores, que se centraban en el reconocimiento de patrones, este método enseña explícitamente a los modelos los pasos intermedios de razonamiento necesarios para llegar a conclusiones. Evaluaciones independientes demuestran que los modelos entrenados con datos Genesis II muestran una precisión de razonamiento superior y producen respuestas más coherentes y bien estructuradas en comparación con conjuntos de datos sintéticos anteriores.

Ampliación de cobertura de dominios y accesibilidad

Genesis II se extiende a campos previamente subrepresentados, incluyendo ciencias de la computación, estadística y aprendizaje automático—dominios críticos para desarrollar sistemas de IA capaces de resolver problemas analíticos complejos. Esta expansión se basa en la base establecida en Genesis I, que fue pionero en metodologías de análisis de fallos para identificar y corregir puntos débiles en el razonamiento del modelo.

Todo el conjunto de datos se publica bajo licencia Creative Commons y se aloja tanto en el blog oficial de QVAC como en Hugging Face, democratizando el acceso a datos de entrenamiento de nivel empresarial. Este modelo de distribución abierta elimina barreras para investigadores y desarrolladores que trabajan en modelos de IA localizados, reduciendo la dependencia de plataformas de desarrollo de IA propietarias y centralizadas.

Visión estratégica e impacto en la industria

Paolo Ardoino, CEO de Tether, calificó esta iniciativa como un paso crucial para avanzar en el desarrollo de inteligencia artificial más allá de la mera fluidez lingüística hacia una comprensión robusta y estructurada. Al ofrecer acceso gratuito a datos de entrenamiento sintéticos de alta calidad, QVAC permite a la comunidad de investigación en IA en general desarrollar modelos más confiables y transparentes fuera de los ecosistemas corporativos tradicionales.

El lanzamiento subraya un reconocimiento creciente de que los datos de preentrenamiento de calidad—especialmente conjuntos de datos sintéticos optimizados para el valor educativo—constituyen una ventaja competitiva crítica en el desarrollo de modelos. A medida que los sistemas de IA se vuelven cada vez más centrales en negocios y aplicaciones de investigación, iniciativas como Genesis II contribuyen de manera significativa a la democratización de capacidades avanzadas de entrenamiento de modelos.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt