🌕 Gate 广场 · 中秋创作激励 Day 2 话题公布- #DOGE ETF上市# !
创作点亮中秋,带热门话题发帖,瓜分 $5,000 中秋好礼!🎁
立即报名查看详情 👉 https://www.gate.com/campaigns/1953
💝 新用户首次发帖并完成互动任务,即可瓜分 $600 新人奖池!
🔥 Day 2 热门话题:DOGE ETF上市
REX Shares 与 Osprey Funds 推出的 Dogecoin ETF(代码 DOJE)预计本周四正式交易,成为美国首只上市的 Dogecoin ETF!随着首只 Meme 币 ETF 的开启,未来还有哪些 Meme 币可能获得批准?对此你有何看法?快来发帖分享你的观点吧!
发帖建议:
1️⃣ 你认为 DOJE 上市会对 DOGE 短期价格产生什么影响?
2️⃣ 你预测未来还有哪些 Meme 币 ETF 可能被批准?
3️⃣ 你近期在 #DOGE# 上的交易策略是什么?有哪些成功经验或操作技巧?
快带上 #DOGE ETF上市# 和 #Gate广场创作点亮中秋# 发帖,内容越多越优质,越有机会赢取 $5,000 中秋好礼!
#ETF#
LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集
原文来源:量子位
开源数据集因侵权问题,惨遭下架。
如LLaMA、GPT-J等,都用它训练过。
如今,托管了它3年的网站,一夜之间删除了所有相关内容。
这就是Books3,一个由将近20万本图书组成的数据集,大小将近37GB。
现在该平台上的Books3网页链接已经“404”。
数据集的最初开发者无奈表示,Books3的下架是开源圈的一场悲剧。
Books3是什么?
Books3在2020年发布,由AI开发者Shawn Presser上传,被收录在Eleuther AI的开源数据集Pile中。
它总计包含197000本书,包含来自盗版网站Bibliotik的所有书籍,意在对标OpenAI的数据集,但主打开源。
这也是Books3名字的来源之处——
GPT-3发布后,官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库,不过具体内容一直没有被透露。
比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.
要知道,图书数据一直是大模型预训练中核心的语料素材,它能为模型输出高质量长文本提供参考。
很多AI巨头使用的图书数据集都是不开源,甚至是非常神秘的。比如Books1/2,关于其来源、规模的了解,更多都是各界猜测。
为了更方便获取,Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。
而这一次惨遭下架,说的也是这一平台。
丹麦反盗版组织权利联盟向The Eye提出了下架请求,并且通过了。
不过好消息是,Books3并没有完全消失,还是有其他办法获取的。
Wayback Machine上还有备份,或者可以从Torrent客户端下载。
作者老哥在推特上给出了多个方法。
“没有Books3就没法做自己的ChatGPT”
实际上,对于这次下架风波,数据集作者老哥有很多话想说。
他谈到,想要做出像ChatGPT一样的模型,唯一的方法就是创建像Books3这样的数据集。
在作者看来,ChatGPT就像是90年代的个人网站一样,任何人都能做是很关键的。
不过由于Books3很大一部分数据来自于盗版网站,所以作者也表示,希望之后能有人做出来比Books3更好的数据集,不仅提升数据质量,而且尊重书籍版权。
一个多月以前,两位全职作者以未经允许擅自将作品用来训练ChatGPT,起诉了OpenAI。
而之所以会发生这种情况,很有可能是OpenAI的数据集Books2从影子图书馆(盗版网站)中获取了大量数据。
所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。
参考链接:
[1]
[2]
[3]
[4]