色色王国上海AI实验室开源发布高质地语料“万卷CC”|万卷cc|ai实验室

栏目分类

自拍偷拍在线视频

你的位置：福建兄妹 > 自拍偷拍在线视频 > 色色王国上海AI实验室开源发布高质地语料“万卷CC”|万卷cc|ai实验室

发布日期：2024-10-05 21:20 点击次数：182

色色王国上海AI实验室开源发布高质地语料“万卷CC”|万卷cc|ai实验室

近日色色王国，上海东谈主工智能实验室（上海AI实验室）发布新一代高质地大模子预检会语料“万卷CC”（WanJuan-CC），首批开源的语料躲避当年十年互联网上的公开内容，包含1千亿字符（100Btoken），约400GB的高质地英文数据。动作“大模子语料数据定约”本年首发的开源语料，WanJuan-CC将为学界和业界提供大范畴、高质地的数据复旧，助力构建更智能可靠的AI大模子。

预检会数据的质地对大模子举座性能至关进击。面前，CommonCrawl（CC）数据集因其范畴大、跨度广而成为海外主流大模子检会数据的进击着手。与此同期，其原始数据体式复杂、数据质地低等问题，或将导致模子检会效能低，致使可能激发价值不雅对王人等方面的隐患。

中国科研东谈主员通过原创的数据清洗时间，从CC数据库中抽取约1300亿份原始数据文档进行再处分，“萃取”出其中约1.38%的高质地内容，构建成WanJuan-CC语料库。实验适度知道，WanJuanCC具有高文实质地、高信息密度的特质，可欢叫面前大模子检会对大范畴高质地语料的需求。

上海AI实验室发布的书⽣·浦语2.0（InternLM2）即以WanJuan-CC为关键数据作复旧，使检会效能和话语建模智商大幅培育，详细性能跳动开源社区。

开源数据：https://opendatalab.com色色王国/OpenDataLab/WanJuanCC

高质地语料运行，效苟且能双培育

近期，上海AI实验室发布了新一代假话语模子书⽣·浦语2.0（InternLM2）。淡雅话语建摹实质，InternLM2详细性能达到同量级开源模子的跳动水平。模子基座话语建模智商的培育，则收获于预检会文实质地及信息密度的增强。动作InternLM2的关键预检会语料，WanJuan-CC的文实质地和高信息密度经过了模子推行考证。在InternLM2的检会流程中，在仅使用约60%的检会数据情况下，模子即赢得了与此前使用1T token疏浚的性能阐明，大幅培育检会效能，并使模子在疏浚语料范畴上取得了更好的性能。

绿色弧线为InternLM2使用WanJuan-cc动作预检会语料，在不同数据范畴上取得的任务性能散布，适度知道，WanJuan-CC可大幅培育模子检会效能

考虑团队通过对CC原始数据进行清洗，去除了网页代码和重迭内容，同期哄骗分类模子剔除了告白和质地较差的信息色色王国，并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度，对话语的流通性进行评估。为考证数据质地，考虑团队使用WanJuan-CC和RefineWeb（从CommonCrawl中抽取并构建的主流英文预检会语料）别离重新检会了参数目1B的模子，并进行评测。适度知道，由WanJuan-CC动作检会数据的模子在多项考证中取得了更优后果。

基于WanJuan-CC检会的1B模子在Pile考证集评测后果更优，这标明由WanJuan-CC检会的模子在不同边界和种种学问上领有更强智商

四重处分，寥若晨星“萃取”高质地数据

为从星罗棋布的CC数据库中“精选”最可靠的信息，考虑团队搭建了高性能散布式数据处分基础设施，通过启发式规章过滤、多层级数据去重、内容安全过滤、数据质地过滤等四个体式，从原始数据中“萃取”出高质地数据，数据留存率仅为原数据的1.38%。

通过原创时间，对CC原始数据进行多阶段处分，得到了高信息密度的WanJuan-CC

女同视频

考虑团队领先从CC中抽取了约1300亿份原始数据文档，然后基于高性能数据处单干作流得到2.2T token（35.8亿个文档）安全数据，临了，把柄质地排序精选出1T token（3.6亿个文档）质地最高的数据，构建成WanJuan-CC。如以下柱状图所示，在WanJuan-CC构建流程中的每一阶段，均进行了大比例的数据去除。关于仅占原CC数据比例2.76%的安全信息，考虑东谈主员再次“筛”掉五成低质内容，最终呈现出“寥若晨星”的高质地数据。

各清洗阶段的文档保留率和去除率（本图使用对数坐标轴）

数据质地高，模子更可靠

为鞭策检会更智能可靠的AI大模子，考虑团队以保险数据安全性为前提，在数据处分的各枢纽均践诺了多项安全加固轨范，使WanJuan-CC成为当今开源CC语料中首个在毒性（Toxic）、色情（Porn）和个东谈主秘密三方面同期进行了安全加固的英文语料，因而在价值对王人方面具有更高的可靠性。

与部分开源CC语料多维度对比，在毒性、色情和个东谈主秘密等方面，WanJuan-CC均进行了安全加固

考虑东谈主员别离对WanJuan-CC、Redpajama和Refineweb数据集进行了10万条数据的抽样，从毒性、侮辱、勒诈等7个维度进行评分，以考证各数据集的信息安全性。适度知道，WanJuan-CC在各维度上的体现出最高安全性。

WanJuan-CC与其他开源英文CC语料安全性对比

高质地、多模态、宽边界的数据已成为支抓面前东谈主工智能大模子发展的进击基石。WanJuan-CC的主要构建团队——OpenDataLab死力于诞生面向东谈主工智能设备者的超大范畴、高质地、多模态怒放数据职业平台，当今已汇注高质地多模态数据集超6500个，涵盖大模子研发应用所需的种种语料数据。雷峰网雷峰网雷峰网

下载更多开源语料，请登录大模子语料数据定约开源数据职业指定平台：

https://opendatalab.com

上一篇：科目三裸舞梁永安：电影《小妇东谈主》中女性的爱情与理思生活

下一篇：色色王国利弊东说念主妻幸福秘笈音乐图文原声带