🎉【Gate 新加坡旗舰活动 · 广场趣味答题 Day1】
#TOKEN2049# 马上拉开序幕,Gate 也要在新加坡放大招啦!
Token of Love 音乐节、 Gate x Oracle Red Bull Racing 招待会、 F1 观赛派对统统来袭!
现在参与广场【趣味答题挑战】,来测测你对活动了解多少,瓜分$100 BTC!
参与方式:评论区留下答案(格式:1B 2A 3B 4B)
🎁 奖励:每天抽 3 名幸运用户 → 每人 $10 BTC
🎁 终极彩蛋:三天全对的幸运超级答题王 → 再送 $10 BTC!
📖 Day1 · Quiz 单选题
Q1
Gate 新加坡旗舰活动在哪五天举行?
A. 9月30日-10月4日
B. 10月1日-5日
C. 10月5日-9日
Q2
“TOKEN OF LOVE” 音乐节的举办地点是?
A. 滨海湾花园
B. 圣淘沙
C. 新加坡体育馆
Q3
Gate x Oracle Red Bull Racing 招待会特别关注的三个主题是?
A. 体育、旅游、时尚
B. 加密市场趋势、全球经济展望、Web3
C. 游戏、NFT、元宇宙
Q4
在10月2日举行的 F1 赛车模拟挑战中,胜出者获得的奖励是什么?
A. 音乐节 VVIP 门票
B. Gate 精美周边
C. F1 观赛盛宴门票
💡 小Tips:不确定答案?偷偷翻一下
羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型
编辑:小舟、陈萍
**来源:**机器之心
这一年来,以 ChatGPT 和 GPT-4 为代表的大语言模型(LLM)发展迅速,紧随其后,Meta 开源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轰动。但随之而来的是争议不断,有人认为 LLM 存在一些不可控的风险,给人类生存构成一些潜在威胁。
为了应对这些挑战,对 LLM 对齐的研究变得越来越重要,有研究者提出指令跟随(instruction following),但这种方法需要大量的人工注释。然而,注释如此高质量的指令跟随数据集耗费巨大。
本文来自 Meta AI 的研究者提出了一种可扩展的方法即指令回译(instruction backtranslation),该方法通过自动注释相应的指令来构建高质量的指令跟随语言模型。
具体而言,该研究从一个语言模型开始,并作为种子模型,该模型在少量的种子数据以及 web 语料库上进行了微调。种子模型的作用是用来构建训练样本,然后这些样本中的一些高质量样本将会被筛选出来,接着,这些数据被用来微调一个更强大的模型。
经过两轮迭代的数据集对 LLaMa 进行微调,所产生的模型 Humpback 在 Alpaca 排行榜上优于其他现有的非蒸馏模型,如 LIMA、Claude、Guanaco 等。
Humpback 原意为座头鲸,又名驼背鲸,Meta 将模型命名为 Humpback,也别有深意吧。
图灵奖得主 Yann LeCun 高度概括了这项研究的方法,并称赞 Meta 这项工作为对齐研究做出重要贡献:
该论文提出了一种需要两个步骤完成的新的数据增强范式。首先,必须拥有一组种子(指令、输出)对和语料库才能生成更多好的指令数据。
方法简介
该研究提出了一种自训练方法(self-training),该方法通常假定可以访问基本语言模型、少量种子数据和未标记的样本集(例如网络语料库)。未标记数据往往是一大堆形态各异的文档,由人类编写,其中包括人类感兴趣的各种话题内容,但最重要的是没有与指令进行配对。
这里还有两个关键的假设,第一个假设是这个非常大的文本集(未标记样本集)存在一些子集,适合作为某些用户指令的生成样本。第二个假设是可以预测这些候选答案的指令,这些指令可以用于形成高质量样本对,以训练指令遵循模型。
如下图 1 所示,该研究提出指令回译过程包含两个核心步骤:
实验及结果
本文的数据集主要包括种子数据和增强数据,具体信息如表 2 和图 2 所示: