中关村发布|智源研究院发布超500G中文文本数据集 中关村发布|智源研究院发布超500G中文文本数据集
admin
2024-04-27 13:05:08
0

新京报贝壳财经讯(记者韦英姿)4月26日,在2024中关村论坛年会平行论坛“数据安全治理与发展论坛”上,北京智源人工智能研究院(简称智源研究院)副院长兼总工程师林咏华表示,从语言模型演进到多模态文生视频模型,对模型训练数据所需要的数据量提出了十倍、几十倍甚至上百倍的发展需求。

她认为,大模型的训练数据,不仅要求数量更多、质量更高,也要求思考如何推动数据尤其是中文高质量数据、行业数据的共建共享。


北京智源人工智能研究院副院长兼总工程师林咏华。图/主办方供图

在活动中,林咏华发布了超过500G的中文文本数据集——“中文互联网语料库CCI (Chinese Corpora Internet)2.0”。她表示,该语料库既包括智源研究院大模型“悟道”的数据集,也包括全国20多家互联网和其他企业的数据贡献。

最后,她还宣布上线面向数据贡献团队的积分共享数据平台,该平台包含的数据集超过58个,数据总量约213TB,支撑大多数人工智能训练场景。

国内大模型发展面临着高质量中文语料资源短缺的问题。第十四届全国人大会议通过的政府工作报告提出,要深化大数据、人工智能等研发应用,大力推动数据开发开放和流通使用。

相关内容

热门资讯

原创 对... 少年时阅读历史时,我们常常为项羽的失败感到困惑。他这位勇敢直接的青年,怎么会败给刘邦那个看似不怎么样...
英伟达与礼来共投10亿美元 建... 财联社1月13日讯(编辑 牛占林)英伟达与美国制药巨头礼来当地时间周一宣布,双方将在未来五年内投入1...
2026年做什么行业赚钱有前景... 站在2026年这个时间节点上,很多人明显感觉到,钱变得“聪明”了,也变得更难赚了。 过去那种靠信息差...
10亿基金落地 背靠广州工控庞... 观点网 近日,广州工控图南创业投资基金顺利完成备案,正式进入实质性运营阶段。 该基金由工控科创集团发...
原创 金... 2026年1月12日的市场数据,分析国际金价回调至4509.3美元/盎司背景下的中国黄金市场全景,品...
“鳌太线”驴友失联事件引关注 ... 1月5日晚,陕西省太白县发布通告,1月2日,5名驴友避开管护站,违规穿越鳌山。1月3日上午,1名驴友...
房价浮动有下限?天津市住建部门... “手里还有没签约的客户,抓紧邀约,跟客户宣贯到位,自己对自己的客户负责!”近日,社交平台流传一份天津...
原创 应... 先说数字,87家A股披露了2025年年报预告,剔除新股后,有17家公司的归母净利同比预增上限超过10...
内部晋升!杭州银行新行长定了! 打破市场此前“外部空降”的预期,2.3万亿资产规模的杭州银行,正式确立了接棒行长的人选。 1月12日...
融资资金抢筹,量化辨明方向 最近看到一组市场数据,申万31个一级行业里,有超半数行业获得了融资净买入,其中国防军工行业的净买入额...
长沙泰和医院成功开展双腔主动固... 大众卫生报·新湖南客户端1月12日讯(通讯员 王谦 小姿)近日,长沙泰和医院心血管内科首席专家蒲晓群...
越秀资本(000987.SZ)... 格隆汇1月12日丨越秀资本(000987.SZ)公布,公司及董事会2026年1月9日收到王恕慧先生的...
茅台多款产品降价,最高降幅近四... 1月12日,市场有消息称,贵州茅台(600519)将下调旗下多款产品价格,涉及精品茅台、茅台15年、...
1月12日中证银行(39998... 证券之星消息,1月12日,中证银行(399986)指数报收于7483.12点,涨0.3%,成交295...
美国银行股普遍下挫 第一资本金融股价大跌9.7%,美国运通下跌4.6%。美国主要 银行的股价亦普遍走低:花旗下跌4.1%...
主动脉严重“瓷化”,高难度术式... “我差一点没命,现在心里舒坦多了,恢复得特别好,多亏了张主任的团队!”1月6日,66岁的患者朱老爷子...
卖掉21吨银条,狂赚2.47亿... 图源:图虫创意 白银暴涨,一家原本主业平平的物管公司,靠出售银条赚得盆满钵满。 1月12日晚间,广州...
精准发力 政府投资基金投向划定... 1月12日,国家发展改革委、财政部、科技部、工业和信息化部联合发布《关于加强政府投资基金布局规划和投...
康骨堂 关节炎的病因有哪些 关节炎的病因较为复杂多样,主要包括遗传因素、免疫系统异常、关节损伤、感染因素以及代谢异常等多种因素相...
中国资产,深夜大涨! 中国资产爆发。 当地时间1月12日,美股三大指数集体低开,截至发稿,道指跌0.46%,标普500指数...