自拍偷拍 在线视频
你的位置:福建兄妹 > 自拍偷拍 在线视频 > 色色王国 上海AI实验室开源发布高质地语料“万卷CC”|万卷cc|ai实验室
色色王国 上海AI实验室开源发布高质地语料“万卷CC”|万卷cc|ai实验室

发布日期:2024-10-05 21:20    点击次数:182

色色王国 上海AI实验室开源发布高质地语料“万卷CC”|万卷cc|ai实验室

近日色色王国,上海东谈主工智能实验室(上海AI实验室)发布新一代高质地大模子预检会语料“万卷CC”(WanJuan-CC),首批开源的语料躲避当年十年互联网上的公开内容,包含1千亿字符(100Btoken),约400GB的高质地英文数据。动作“大模子语料数据定约”本年首发的开源语料,WanJuan-CC将为学界和业界提供大范畴、高质地的数据复旧,助力构建更智能可靠的AI大模子。

预检会数据的质地对大模子举座性能至关进击。面前,CommonCrawl(CC)数据集因其范畴大、跨度广而成为海外主流大模子检会数据的进击着手。与此同期,其原始数据体式复杂、数据质地低等问题,或将导致模子检会效能低,致使可能激发价值不雅对王人等方面的隐患。

中国科研东谈主员通过原创的数据清洗时间,从CC数据库中抽取约1300亿份原始数据文档进行再处分,“萃取”出其中约1.38%的高质地内容,构建成WanJuan-CC语料库。实验适度知道,WanJuanCC具有高文实质地、高信息密度的特质,可欢叫面前大模子检会对大范畴高质地语料的需求。

上海AI实验室发布的书⽣·浦语2.0(InternLM2)即以WanJuan-CC为关键数据作复旧,使检会效能和话语建模智商大幅培育,详细性能跳动开源社区。

开源数据:https://opendatalab.com色色王国/OpenDataLab/WanJuanCC

高质地语料运行,效苟且能双培育

近期,上海AI实验室发布了新一代假话语模子书⽣·浦语2.0(InternLM2)。淡雅话语建摹实质,InternLM2详细性能达到同量级开源模子的跳动水平。模子基座话语建模智商的培育,则收获于预检会文实质地及信息密度的增强。动作InternLM2的关键预检会语料,WanJuan-CC的文实质地和高信息密度经过了模子推行考证。在InternLM2的检会流程中,在仅使用约60%的检会数据情况下,模子即赢得了与此前使用1T token疏浚的性能阐明,大幅培育检会效能,并使模子在疏浚语料范畴上取得了更好的性能。

绿色弧线为InternLM2使用WanJuan-cc动作预检会语料,在不同数据范畴上取得的任务性能散布,适度知道,WanJuan-CC可大幅培育模子检会效能

考虑团队通过对CC原始数据进行清洗,去除了网页代码和重迭内容,同期哄骗分类模子剔除了告白和质地较差的信息色色王国,并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度,对话语的流通性进行评估。为考证数据质地,考虑团队使用WanJuan-CC和RefineWeb(从CommonCrawl中抽取并构建的主流英文预检会语料)别离重新检会了参数目1B的模子,并进行评测。适度知道,由WanJuan-CC动作检会数据的模子在多项考证中取得了更优后果。

基于WanJuan-CC检会的1B模子在Pile考证集评测后果更优,这标明由WanJuan-CC检会的模子在不同边界和种种学问上领有更强智商

四重处分,寥若晨星“萃取”高质地数据

为从星罗棋布的CC数据库中“精选”最可靠的信息,考虑团队搭建了高性能散布式数据处分基础设施,通过启发式规章过滤、多层级数据去重、内容安全过滤、数据质地过滤等四个体式,从原始数据中“萃取”出高质地数据,数据留存率仅为原数据的1.38%。

通过原创时间,对CC原始数据进行多阶段处分,得到了高信息密度的WanJuan-CC

女同视频

考虑团队领先从CC中抽取了约1300亿份原始数据文档,然后基于高性能数据处单干作流得到2.2T token(35.8亿个文档)安全数据,临了,把柄质地排序精选出1T token(3.6亿个文档)质地最高的数据,构建成WanJuan-CC。如以下柱状图所示,在WanJuan-CC构建流程中的每一阶段,均进行了大比例的数据去除。关于仅占原CC数据比例2.76%的安全信息,考虑东谈主员再次“筛”掉五成低质内容,最终呈现出“寥若晨星”的高质地数据。

各清洗阶段的文档保留率和去除率(本图使用对数坐标轴)

数据质地高,模子更可靠

为鞭策检会更智能可靠的AI大模子,考虑团队以保险数据安全性为前提,在数据处分的各枢纽均践诺了多项安全加固轨范,使WanJuan-CC成为当今开源CC语料中首个在毒性(Toxic)、色情(Porn)和个东谈主秘密三方面同期进行了安全加固的英文语料,因而在价值对王人方面具有更高的可靠性。

与部分开源CC语料多维度对比,在毒性、色情和个东谈主秘密等方面,WanJuan-CC均进行了安全加固

考虑东谈主员别离对WanJuan-CC、Redpajama和Refineweb数据集进行了10万条数据的抽样,从毒性、侮辱、勒诈等7个维度进行评分,以考证各数据集的信息安全性。适度知道,WanJuan-CC在各维度上的体现出最高安全性。

WanJuan-CC与其他开源英文CC语料安全性对比

高质地、多模态、宽边界的数据已成为支抓面前东谈主工智能大模子发展的进击基石。WanJuan-CC的主要构建团队——OpenDataLab死力于诞生面向东谈主工智能设备者的超大范畴、高质地、多模态怒放数据职业平台,当今已汇注高质地多模态数据集超6500个,涵盖大模子研发应用所需的种种语料数据。雷峰网雷峰网雷峰网

下载更多开源语料,请登录大模子语料数据定约开源数据职业指定平台:

https://opendatalab.com