Genesis II расширяет синтетический набор данных AI-образования QVAC до 148 миллиардов токенов

2026-01-09 11:37:09

Отдел исследований искусственного интеллекта Tether Data, QVAC, представил последнюю версию своего открытого синтетического набора данных, что стало значительным шагом вперёд в возможностях предварительной подготовки моделей ИИ. Новый релиз включает дополнительно 107 миллиардов токенов, доводя общий объём набора данных до 148 миллиардов токенов, охватывающих 19 образовательных областей — что делает его крупнейшим в мире публичным синтетическим набором данных для разработки ИИ.

Прорыв в области синтетического деления и рассуждений

Набор данных Genesis II вводит принципиально новый подход к структурированию обучающих данных. Вместо простого накопления токенов, QVAC реализовал метод «синтетического деления», который сегментирует образовательный контент по специализированным областям, каждая из которых оптимизирована для достижения конкретных целей обучения. Эта методика позволяет более точно управлять параметрами обучения модели.

Особенностью этого релиза является введение «Рассуждений на уровне вариантов», нового метода обучения, который направляет модели ИИ через многоступенчатые рамки решения задач с несколькими вариантами ответов. В отличие от предыдущих поколений, сосредоточенных на распознавании шаблонов, этот метод явно обучает модели промежуточным шагам рассуждения, необходимым для достижения выводов. Независимые оценки показывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и дают более связные, хорошо структурированные ответы по сравнению с ранними синтетическими наборами данных.

Расширение области охвата и доступность

Genesis II охватывает ранее недоиспользуемые области, такие как информатика, статистика и машинное обучение — ключевые направления для разработки ИИ-систем, способных решать сложные аналитические задачи. Это расширение основывается на фундаменте Genesis I, который стал пионером в методах анализа ошибок для выявления и устранения слабых мест в рассуждениях моделей.

Весь набор данных выпущен под лицензией Creative Commons и размещён как на официальном блоге QVAC, так и на Hugging Face, что демократизирует доступ к обучающим данным корпоративного уровня. Эта открытая модель распространения устраняет барьеры для исследователей и разработчиков, работающих над локальными моделями ИИ, снижая зависимость от проприетарных централизованных платформ для разработки ИИ.

Стратегическое видение и влияние на индустрию

Пауоло Ардойно, генеральный директор Tether, охарактеризовал этот проект как важный шаг в развитии искусственного интеллекта — от простого владения языковыми навыками к глубокому, структурированному пониманию. Обеспечивая бесплатный доступ к высококачественным синтетическим обучающим данным, QVAC способствует развитию более надёжных и прозрачных моделей вне рамок традиционных корпоративных экосистем.

Релиз подчёркивает растущее признание того, что качественные предварительные данные — особенно синтетически созданные наборы, оптимизированные для образовательной ценности — являются критическим конкурентным преимуществом в разработке моделей. По мере того как системы ИИ всё больше интегрируются в бизнес и научные сферы, такие инициативы, как Genesis II, вносят значительный вклад в демократизацию передовых возможностей обучения моделей.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .