🌕 Gate 廣場 · 中秋創作激勵限時開啓!
創作點亮中秋,帶熱門話題發帖,瓜分 $5,000 中秋好禮!🎁
立即報名查看詳情 👉 https://www.gate.com/campaigns/1953
💝 新用戶首次發帖並完成互動任務,即可瓜分 $600 新人獎池!
🔥 今日熱門話題: #我最看好的AI代币#
山寨季蓄勢待發,AI板塊代幣普漲, #WLD# 、 #KAITO# 領漲,龍頭 WLD 單日暴漲近48%,AI、IO、VIRTUAL 順勢跟上。近期你計劃布局哪些潛力 AI 幣?快來分享你的投資心得吧!
發帖建議:
1️⃣ AI 板塊未來發展你怎麼看?
2️⃣ 你最近看好哪些 AI 幣向大家推薦?理由是什麼?
3️⃣ 你最近的 AI 幣種交易策略如何?
快帶上 #我最看好的AI代币# 和 #Gate广场创作点亮中秋# 發帖,內容越多越優質,越有機會贏取 $5,000 中秋好禮!
羊駝進化成鯨魚,Meta把對齊「自動化」,Humpback擊敗現有全部LLaMa模型
編輯:小舟、陳萍
**來源:**機器之心
這一年來,以ChatGPT 和GPT-4 為代表的大語言模型(LLM)發展迅速,緊隨其後,Meta 開源的LLaMa、Llama 2 系列模型在AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷,有人認為LLM 存在一些不可控的風險,給人類生存構成一些潛在威脅。
為了應對這些挑戰,對LLM 對齊的研究變得越來越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工註釋。然而,註釋如此高質量的指令跟隨數據集耗費巨大。
本文來自Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動註釋相應的指令來構建高質量的指令跟隨語言模型。
具體而言,該研究從一個語言模型開始,並作為種子模型,該模型在少量的種子數據以及web 語料庫上進行了微調。種子模型的作用是用來構建訓練樣本,然後這些樣本中的一些高質量樣本將會被篩選出來,接著,這些數據被用來微調一個更強大的模型。
經過兩輪迭代的數據集對LLaMa 進行微調,所產生的模型Humpback 在Alpaca 排行榜上優於其他現有的非蒸餾模型,如LIMA、Claude、Guanaco 等。
Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為Humpback,也別有深意吧。
圖靈獎得主Yann LeCun 高度概括了這項研究的方法,並稱讚Meta 這項工作為對齊研究做出重要貢獻:
該論文提出了一種需要兩個步驟完成的新的數據增強範式。首先,必須擁有一組種子(指令、輸出)對和語料庫才能生成更多好的指令數據。
方法簡介
該研究提出了一種自訓練方法(self-training),該方法通常假定可以訪問基本語言模型、少量種子數據和未標記的樣本集(例如網絡語料庫)。未標記數據往往是一大堆形態各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內容,但最重要的是沒有與指令進行配對。
這裡還有兩個關鍵的假設,第一個假設是這個非常大的文本集(未標記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個假設是可以預測這些候選答案的指令,這些指令可以用於形成高質量樣本對,以訓練指令遵循模型。
如下圖1 所示,該研究提出指令回譯過程包含兩個核心步驟:
實驗及結果
本文的數據集主要包括種子數據和增強數據,具體信息如表2 和圖2 所示: