Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
Genesis II 扩展了 QVAC 的合成 AI 教育数据集至 1480 亿个标记
Tether Data 的人工智能研究部门 QVAC 发布了其开源合成数据集的最新版本,标志着在 AI 模型预训练能力方面取得了重大突破。此次新版本增加了 1070 亿个额外的 token,使总数据集规模达到 1480 亿个 token,涵盖 19 个以教育为重点的领域——确立了其作为全球最大公开可用的 AI 开发合成数据集的地位。
在合成划分和推理能力方面的突破
Genesis II 数据集引入了一种根本性的变革,改变了合成数据结构化训练信息的方式。与简单的 token 累积不同,QVAC 实施了一种“合成划分”方法,将教育内容划分为专业领域,每个领域针对特定的学习目标进行优化。这种方法实现了对模型训练参数的更细粒度控制。
此次发布的一个显著特点是引入“选项级推理”,这是一种引导 AI 模型通过多项选择问题解决框架的创新训练方法。与以往侧重于模式识别的模型不同,这种方法明确教授模型达到结论所需的中间推理步骤。独立评估显示,基于 Genesis II 数据训练的模型在推理准确性方面表现优越,生成的回答也更加连贯、结构合理。
扩展的领域覆盖和可访问性
Genesis II 扩展到之前较少涉及的领域,包括计算机科学、统计学和机器学习——这些领域对于开发能够解决复杂分析问题的 AI 系统至关重要。这一扩展是在 Genesis I 的基础上进行的,Genesis I 首次采用故障分析方法,识别并修正模型推理中的薄弱环节。
整个数据集采用 Creative Commons 许可协议发布,并托管在 QVAC 官方博客和 Hugging Face 上,向公众开放企业级训练数据的获取。这种开放的分发模式打破了研究人员和开发者在本地化 AI 模型开发中的壁垒,减少了对专有、集中式 AI 开发平台的依赖。
战略愿景与行业影响
Tether 的 CEO Paolo Ardoino 将此次发布描述为推动人工智能发展迈向更强大、更结构化理解的关键一步。通过免费提供高质量的合成训练数据,QVAC 使更广泛的 AI 研究社区能够在传统企业生态系统之外开发更可靠、更透明的模型。
此次发布凸显了一个日益增长的共识:高质量的预训练数据——尤其是经过优化以增强教育价值的合成数据集——在模型开发中具有关键的竞争优势。随着 AI 系统在商业和科研应用中的核心地位不断提升,Genesis II 之类的项目在推动先进模型训练能力的普及方面发挥着重要作用。