升级不加价!腾讯云存储面向AIGC全线升级,已服务80%头部大模型企业 鑵捐浜戠殑浜戝瓨鍌ㄤ骇鍝佹垨鏈嶅姟 鑵捐浜戝瓨鍌ㄤ骇鍝佹湇鍔℃湁鍝簺
admin
2024-04-09 04:25:46
0


智东西(公众号:zhidxcom
作者香草
编辑李水青

智东西4月8日报道,今日,腾讯云宣布云存储解决方案面向AIGC(生成式AI)场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程,提供全面高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。


▲腾讯云存储AIGC解决方案升级

据腾讯云存储总经理马文霜介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱AI、元象等。

此前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。马文霜强调,本次存储方案“升级不加价”,价格方面没有任何变化。

一、实现秒级Checkpoint写入,端到端一条龙服务

大模型的研发生产流程,分为数据采集与清洗、模型训练、推理三大环节,其中每个环节都涉及海量的数据处理。尤其是目前大模型的参数量越“卷”越大,从十亿、百亿一直到万亿级,这对云基础设施提出了新要求。


▲大模型对云基础设施提出新要求

对此,腾讯云从每个环节分别入手,面向AIGC场景推出覆盖全链路的端到端解决方案升级,实现了低延时、高OPS(每秒操作数)。

在数据采集环节,腾讯云COS(对象存储)支持单集群管理百EB级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。


▲腾讯云全自研对象存储引擎

同时,随着训练数据和推理数据的增长,需要低成本的存储能力以减少存储开销。对象存储服务提供了12个9的数据持久性和99.995%的数据可用性,能够为业务提供持续可用的存储服务。

在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,单次清洗任务耗时减少一半,单个文件读取速度提升10倍。


▲腾讯云自研数据加速服务

在模型训练环节,由于大模型训练时间一般长达数周甚至数月,在这期间,任何GPU出现故障都会导致训练终止,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚。因此,快速读写Checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。

腾讯云自主研发并行文件存储CFS Turbo,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。面向3TB规模的Checkpoint,写入时间从10分钟缩短至10秒内,样本读取效率也提升50%。


▲腾讯云自研并行文件存储CFS Turbo

这一能力的背后,是腾讯云自研的文件存储引擎Histor,这也是业内唯一云原生自研并行文件存储引擎,其单客户端能力达10GiB/s,支持百万计OPS、千亿级文件扩展。


▲腾讯云自研文件存储引擎Histor

在数据审核阶段,大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云一站式内容智理平台数据万象CI推出图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等功能,为数据生产业务全流程提供有力支撑。

其中,明暗水印为每个AI作品生成专属ID,MetaInsight支持跨模态检索,可文搜图、文搜视频、图搜视频等,内容审核延时降低50%,支持全媒体类型。


▲腾讯云一站式内容智理平台数据万象

马文霜透露,目前国内80%的头部大模型企业都在用腾讯云存储服务,包括百川智能、智谱AI、元象、右脑科技等。

腾讯云智能存储产品总监叶嘉梁为我们演示了MetaInsight的智能检索功能,如输入一张红裙舞者照片,右边可以在对象存储直接找到对应的图片。


▲MetaInsight智能检索

通过自然语言输入,MetaInsight同样能在对象存储空间中输出符合描述的图片。


▲MetaInsight智能检索

二、存储引擎全面自研,四大核心技术实现高性能文件读写

腾讯云文件存储总监陆志刚解读了并行文件存储CFS Turbo的技术升级。据称,这是国内目前唯一实现存储引擎全面自研的云存储解决方案。

CFS Turbo拥有四大核心技术,分别是并行客户端、智能缓存技术、自适应条带化以及分布式元数据。


▲AIGC时代下的文件存储技术要素

并行客户端支持一个客户端同时和多个服务端通过多条链路传输,提升访问速率。


▲CFS Turbo总体架构

智能缓存技术在客户端和服务端两级采用分布式缓存,元数据和数据之间采用独立缓存机制,读写操作可分别配置,读缓存加速重复数据的读取,写缓存提升Checkpoint的保存速度。


▲分布式缓存

自适应条带化通过智能分片,把大文件切割成小文件同时并发写入,提升吞吐,单文件读写吞吐可达5GB/s,集群读写吞吐线性增长,1PB容量规模可达1TB/s读写吞吐,单客户端文件读写性能达10GB/s。


▲文件动态条带化

分布式元数据对上亿级别文件目录分散处理,提升并发性能。传统元数据服务器是树型,受单点制约,而业内普遍的解决方式是采用联邦式,但仍需要提前规划文件和目录分配。CFS Turbo采取的分布式,能使元数据性能线性扩展至十多倍,文件和目录自动均衡分配。


▲分布式元数据

在这些技术的支撑下,腾讯云CFS Turbo能提供业界第一的TiB/s级别总读写吞吐和百万OPS的每秒元数据性能,解决训练文件读写瓶颈。以3TB大小的Checkpoint为例,写入能从10分钟瞬间缩短至10秒内。在GPU发生故障时,能大幅降低对训练时长的影响。


▲Checkpoint写入效果

此外在数据推理阶段,CFS Turbo可实现字节粒度强一致,在模型发布或修改时,多客户端可同时读写同意模型文件,保证数据一致性。


▲字节粒度强一致

基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。

除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等厂商的仿真场景,墨镜天合、追光等企业的影视特效场景。

结语:大模型倒逼云存储升级,腾讯云树立新标杆

今年1月,在沙利文联合头豹研究院发布的《2023年中国云存储解决方案市场报告》中,腾讯云存储入选“领导者”阵营,位列第一。随着大模型时代来临,AIGC场景对数据存储和处理的需求日益增长,腾讯云凭借其在云计算领域的深厚积累,推出了全面升级的AIGC云存储解决方案,为AI大模型提供更加高效、全面的云存储支持。

在数据采集、清洗、训练、推理、数据治理等全流程中,腾讯云的AIGC云存储解决方案展现出了卓越的性能。通过自研的核心技术和产品,腾讯云不仅在性能上实现了质的飞跃,更在价格上保持了亲民,成为众多头部大模型企业的首选。

相关内容

热门资讯

广东工行:制造业贷款余额近45... 2月24日,广东省高质量发展大会顺利召开,会议以“制造业与服务业协同发展”为主题,对广东产业融合发展...
可靠股份“开除”独董引争议,董... 可靠股份(301009.SZ)日前发布《关于解除公司独立董事职务的公告》称,独立董事景乃权丧失独立性...
SHEIN创始人许仰天罕见公开... 界面新闻记者 | 黄姗 界面新闻编辑 | 许悦 2月24日,跨境快时尚电商公司SHEIN希音创始...
雷军春节同款滑雪服意外出圈 3... 快科技2月24日消息,近日,小米创办人、董事长兼CEO雷军晒出春节滑雪照,引发网友热议。 有眼尖网...
盛合晶微科创板IPO成功过会! 2月24日,上海证券交易所上市审核委员会2026年第6次审议会议召开,审议结果显示,盛合晶微半导体有...
商道创投网·会员动态|华封集芯... 《商道创投网》2026年2月24日从官方获悉:北京华封集芯电子有限公司(以下简称"华封集芯")近日完...
原创 乌... 欧洲的能源局势再次迎来剧变。刚刚从友谊管道断供的阴影中稍作喘息,匈牙利和斯洛伐克又宣布暂停向乌克兰供...
再添1家,郑州“商转公贷款”直... 据郑州发布消息,2月24日,从郑州市住房公积金管理中心获悉,中国工商银行股份有限公司郑州商都路支行已...
原创 北... 北京北边这片地方,原来是农田和废弃地带。1998年,昌平区东小口镇被定为经济适用房重点开发区。次年,...
春节期间上海口岸进出境旅客超1... 本文转自【澎湃新闻】; 2月24日,澎湃新闻记者从上海海关获悉,2026年春节期间(2月15日-2月...
深圳诞生首家百亿级具身智能独角... 深圳商报·读创客户端首席记者 袁静娴 2月23日,全球机器人基础模型龙头企业智平方宣布完成B轮融资,...
原创 能... 在全球政治经济的博弈中,乌克兰再次进入了国际舆论的焦点。这一次,泽连斯基似乎采取了一个不容忽视的战略...
2.24犀牛财经晚报:27只基... 27只基金密集提示溢价风险 多只QDII与LOF产品在列 马年A股首个交易日,27只基金集中发布溢价...
阳光财险:护航餐饮安全 守护舌... 又是一年新春佳节来临,餐饮消费迎来旺季。阳光财险将专业、贴心服务融入新春餐饮消费场景,通过食品安全责...
外媒:美投资者撤离华尔街步伐加... 参考消息网2月24日报道据路透社2月20日报道,在美国科技巨头的回报逐渐减少、而表现更优的海外市场愈...
原创 欧... 如今的欧洲,正面临前所未有的困境。名义上,欧盟依然是全球第二大经济体,但实际上,欧盟内部早已四分五裂...
BAT冲进“亿级俱乐部”,AI... 文 | 硅基研究室 Judy 如果说2025年的春节,是DeepSeek这匹黑马的独舞,让“模型”...
原创 激... 激活民营经济一池春水 ——写在湖南“新春第一会”召开之际 长沙晚报掌上长沙2月24日讯 据湖南日报...
原创 急... 隔夜,现货黄金一度上涨超2%或超110美元,突破5200美元关口,刷新日高至5237.54美元。此前...
还说别人蒸馏?马斯克抨击Ant... 凤凰网科技讯 北京时间2月24日,对于美国AI创业公司Anthropic指控其他公司“蒸馏”其模型一...