搜索
当前所在位置:首页 >> 焦点

【长沙高中曝光评价】上海AI实验室开源发布高质量语料“万卷CC”

发布时间:2025-09-13 17:31:27 作者:whoka 点击:9 【 字体:


近日,万卷CC上海人工智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),上海实验室开首批开源的源发语料语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token),布高约400GB的质量高质量英文数据。作为“大模型语料数据联盟”今年首发的万卷CC长沙高中曝光评价开源语料,WanJuan-CC将为学界和业界提供大规模、上海实验室开高质量的源发语料数据支撑,助力构建更智能可靠的布高AI大模型。

预训练数据的质量质量对大模型整体性能至关重要。当前,万卷CCCommonCrawl(CC)数据集因其规模大、上海实验室开跨度广而成为国际主流大模型训练数据的源发语料广州师范大学实拍下载重要来源。与此同时,布高其原始数据格式复杂、质量数据质量低等问题,或将导致模型训练效率低,甚至可能引发价值观对齐等方面的隐患。

中国科研人员通过原创的数据清洗技术,从CC数据库中抽取约1300亿份原始数据文档进行再处理,“萃取”出其中约1.38%的高质量内容,构建成WanJuan-CC语料库。实验结果显示,WanJuanCC具有高文本质量、高信息密度的特点,可满足当前大模型训练对大规模高质量语料的需求。

上海AI实验室发布的书⽣·浦语2.0(InternLM2)即以WanJuan-CC为关键数据作支撑,使训练效率和语言建模能力大幅提升,综合性能领先开源社区。

开源数据:https://opendatalab.com/OpenDataLab/WanJuanCC


高质量语料驱动,效率性能双提升

近期,上海AI实验室发布了新一代大语言模型书⽣·浦语2.0(InternLM2)。回归语言建模本质,InternLM2综合性能达到同量级开源模型的领先水平。模型基座语言建模能力的提升,则得益于预训练文本质量及信息密度的增强。作为InternLM2的关键预训练语料,WanJuan-CC的文本质量和高信息密度经过了模型实际验证。在InternLM2的训练过程中,在仅使用约60%的训练数据情况下,模型即获得了与此前使用1T token相同的性能表现,大幅提升训练效率,并使模型在相同语料规模上取得了更好的性能。

 上海AI实验室开源发布高质量语料“万卷CC”

绿色曲线为InternLM2使用WanJuan-cc作为预训练语料,在不同数据规模上取得的任务性能分布,结果显示,WanJuan-CC可大幅提升模型训练效率

研究团队通过对CC原始数据进行清洗,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度,对语言的流畅性进行评估。为验证数据质量,研究团队使用WanJuan-CC和RefineWeb(从CommonCrawl中抽取并构建的主流英文预训练语料)分别重新训练了参数量1B的模型,并进行评测。结果显示,由WanJuan-CC作为训练数据的模型在多项验证中取得了更优效果。

 上海AI实验室开源发布高质量语料“万卷CC”

基于WanJuan-CC训练的1B模型在Pile验证集评测效果更优,这表明由WanJuan-CC训练的模型在不同领域和各类知识上拥有更强能力

 

四重处理, 百里挑一“萃取”高质量数据

为从浩如烟海的CC数据库中“精选”最可靠的信息,研究团队搭建了高性能分布式数据处理基础设施,通过启发式规则过滤、多层级数据去重、内容安全过滤、数据质量过滤等四个步骤,从原始数据中“萃取”出高质量数据,数据留存率仅为原数据的1.38%。


上海AI实验室开源发布高质量语料“万卷CC”

通过原创技术,对CC原始数据进行多阶段处理,得到了高信息密度的WanJuan-CC

研究团队首先从CC中抽取了约1300亿份原始数据文档,然后基于高性能数据处理工作流得到2.2T token(35.8亿个文档)安全数据,最后,根据质量排序精选出1T token(3.6亿个文档)质量最高的数据,构建成WanJuan-CC。如以下柱状图所示,在WanJuan-CC构建过程中的每一阶段,均进行了大比例的数据去除。对于仅占原CC数据比例2.76%的安全信息,研究人员再次“筛”掉五成低质内容,最终呈现出“百里挑一”的高质量数据。

上海AI实验室开源发布高质量语料“万卷CC”

各清洗阶段的文档保留率和去除率(本图使用对数坐标轴)

 

数据质量高,模型更可靠

为推动训练更智能可靠的AI大模型,研究团队以保障数据安全性为前提,在数据处理的各环节均实施了多项安全加固措施,使WanJuan-CC成为目前开源CC语料中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了安全加固的英文语料,因而在价值对齐方面具有更高的可靠性。


上海AI实验室开源发布高质量语料“万卷CC”

与部分开源CC语料多维度对比,在毒性、色情和个人隐私等方面,WanJuan-CC均进行了安全加固

 研究人员分别对WanJuan-CC、Redpajama和Refineweb数据集进行了10万条数据的抽样,从毒性、侮辱、恐吓等7个维度进行评分,以验证各数据集的信息安全性。结果显示,WanJuan-CC在各维度上的体现出最高安全性。

上海AI实验室开源发布高质量语料“万卷CC”

WanJuan-CC与其他开源英文CC语料安全性对比

高质量、多模态、宽领域的数据已成为支持当前人工智能大模型发展的重要基石。WanJuan-CC的主要构建团队——OpenDataLab致力于建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,目前已汇聚高质量多模态数据集超6500个,涵盖大模型研发应用所需的各类语料数据。雷峰网雷峰网(公众号:雷峰网)雷峰网


下载更多开源语料,请登录大模型语料数据联盟开源数据服务指定平台:

https://opendatalab.com

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

上海AI实验室开源发布高质量语料“万卷CC”

阅读全文
相关推荐

百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP

百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
4月25日,Create2025百度AI开发者大会在武汉隆重举办。百度创始人李彦宏发表了题为《模型的世界 应用的天下》的演讲。60分钟的演讲中,李彦宏发布了两大模型,多款热门AI应用,并宣布将帮助开发 ...

网易有道全面拥抱DeepSeek

网易有道全面拥抱DeepSeek
1月20日,DeepSeek震撼发布DeepSeek-R1,这款推理大模型在数学、编程及逻辑推理等多个领域展现出了与OpenAI顶尖模型比肩的实力,同时实现了API调用成本90%-95%的大幅缩减,无 ...

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈
作者 | 赖文昕编辑 | 陈彩娴不久前,首届“人形机器人半程马拉松”在北京亦庄举办,为本就热度满满的具身智能行业再添了一把火。一共 20 支队伍组成的“钢铁生命竞赛”,让此前集中在实验室 demo 阶 ...

万字实录:VLA 范式,具身智能的曙光与迷雾丨GAIR Live

万字实录:VLA 范式,具身智能的曙光与迷雾丨GAIR Live
整理丨赖文昕编辑丨陈彩娴VLA视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场 ...

PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台

PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台
7月26日至29日,中国领先的独立分布式云计算服务商PPIO亮相2025 世界人工智能大会暨人工智能全球治理高级别会议WAIC)。PPIO联合创始人兼CEO姚欣在WAIC活动上重磅发布了国内首个Age ...

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈
作者 | 赖文昕编辑 | 陈彩娴不久前,首届“人形机器人半程马拉松”在北京亦庄举办,为本就热度满满的具身智能行业再添了一把火。一共 20 支队伍组成的“钢铁生命竞赛”,让此前集中在实验室 demo 阶 ...

深谋科技独树一帜,发布高精度压电式六维力传感器「弹起」,满足多领域高动态力控需求

深谋科技独树一帜,发布高精度压电式六维力传感器「弹起」,满足多领域高动态力控需求
北京深谋科技有限公司近日发布了一款业界罕见的高精度压电式六维力传感器,名曰 “弹起” ,特别适配服务机器人、人形机器人、航空航天、医疗、工业自动化等对环境高动态交互和多维力控制要求极高的场景。该产品具 ...

Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」

Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」
在 Pokee.ai 内测之前,我们就先感受了一把这款 Agent 的能力。“你发给我一个邮件就行,我的 Agent 能自动生成日程表。”在跟朱哲清约电话会议的时候,微信那头的这个人如是说。他是知乎和 ...

GAIR 2023 正式开幕:AI 如此绽放之时,昭示着熙春已至

GAIR 2023 正式开幕:AI 如此绽放之时,昭示着熙春已至
8月14日,新加坡,大厦起伏如丘,树木葱茏,云卷云舒,风也是清新的。建立在大模型技术爆炸时代语境下的第七届GAIR全球人工智能与机器人大会,正式在新加坡乌节大酒店举办。大会共开设10个主题论坛,聚焦大 ...

对话UCL青年教授赵湖斌:可穿戴式DOT如何重塑脑机接口

对话UCL青年教授赵湖斌:可穿戴式DOT如何重塑脑机接口
我们应当如何实时监控自己大脑的健康状态?以马斯克的Neuralink为代表的侵入式脑机接口,过植入大脑皮层的线状电极直接读取神经信号,实现了高精准度信号采集和脑际交互。但是,侵入式脑机接口方案的风险也 ...

阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一

阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一
近日,斯坦福大学人工智能研究所发布了最新一期《2025年人工智能指数报告》。研究报告显示,在2024年度全球重要大模型中,中国贡献15项。从具体机构分布来看,谷歌与OpenAI各占7席并列榜首,阿里巴 ...

谷歌计划将 Gemini 并入 Deepmind,下个月开始生效

谷歌计划将 Gemini 并入 Deepmind,下个月开始生效
刚刚,谷歌任命尼克·福克斯Nick Fox) 接替普拉巴卡尔·拉加万Prabhakar Raghavan )为搜索和广告主管,同时将 Gemini 团队转移到 DeepMind,整合了 AI 团队。据 ...
返回顶部