大模型时代的数据底座怎么建 | ToB产业观察 大数据模型怎么建立 大模型如何应用在制造业
admin
2024-05-11 14:00:41
0


图片来源@pixabay

大模型的生产需要数据底座的支撑,因为只有高质量、高密度的数据去训练模型,才有可能得到更精准的生成效果。就当前而言,训练一个500T参数的模型,使用的训练数据已经达到16.6PB,如果一本书按500KB算,相当于332亿本的数据量。这是什么概念?好比说现存每个人类拥有4本书的量级。

但问题是,使用大量互联网上公开数据集,仅在数据清洗环节就提出极大挑战,被精炼的高质量数据正如石油一样,非常珍贵。钛媒体APP注意到,目前不少模型提供方,已经在特定领域使用合成数据用于模型训练,其原理是希望能够基于大模型自动生成高质量数据集。而这只是一方面。

目前数据量的暴涨,还要求使用各种技术手段实现数据的预训练和微调,数据智能应用场景下,对大数据平台的管理水平和安全能力要求提升,这对于基于云服务应用的企业而言,挑战的复杂性会更为明显。

在媒体沟通会上,亚马逊云科技探讨了数据在生成式AI时代的重要性及挑战,从三个层面分析企业想要构建数据底座,可参考的解决方案和路径。钛媒体摘录了一些关键要点,如下:

企业构建数据底座过程中,往往会通过三类方式进行基础模型的数据定制,以适应不同应用场景,分别是:检索增强生成(Retrieval-Augmented Generation,RAG)、微调和持续预训练。RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同。例如,RAG需要GB级企业数据,微调需要GB级人工标的高质量数据,持续预训练则需要TB级未标的原始数据。RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱;微调数据来源为私域知识;持续预训练数据来源为公开的数据集或企业各部门的数据。企业构建数据底座面临三类挑战:一是在模型微调和预训练阶段,将海量原始数据转化为高质量的大数据集,对存储、清洗、治理的挑战;二是快速获取专有数据的挑战;三是基础模型频繁调用将会导致成本的增加和响应的延迟的挑战企业构建数据底座也应从上述三类挑战入手:一是找到合适的存储来承载海量数据;清洗加工原始数据为高质量数据集;对整个组织内数据的发现编目治理;二是利用RAG将专有数据提供给基础模型;三是通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。


图片来源@亚马逊云科技

亚马逊云科技大中华区数据分析与生成式AI产品总监崔玮在交流中告诉钛媒体APP,从前端模型的使用来看,Amazon Bedrock提供了一个平台开放给客户,让客户自己选择适合自身业务场景的模型。同样在后端,无论是数据分析工具,还是数据库,都是希望通过提供一套最合适的产品和服务,让用户在任何一个应用,任何一个数据存储的环境,都可以通过向量化能力,对接到企业客户的不同业务场景中。

在数据存储方面,扩展性和响应速度是关键。Amazon S3对象存储,支持广泛的数据协议,应对各种数据类型,还支持智能分层以降低训练成本。Amazon FSx for Lustre文件存储服务,提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。

在数据清洗方面,企业面临着繁重的数据清洗加工任务。Amazon EMR serverless采用无服务器架构,帮助企业运行任何规模的分析工作负载,自动扩展功能可在几秒钟内调整资源大小,以满足不断变化的数据量和处理要求。Amazon Glue是一个简单可扩展的无服务器数据集成服务,可快速完成微调或预训练模型的数据准备工作。

在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,还提供简单易用的统一数据管理平台和工具。

利用RAG技术将专有数据提供给基础模型。将向量搜索的支持功能加入到主流的数据服务中,通过将数据和向量存储在一起来提升数据查询性能。Amazon Neptune图数据库推出分析数据库引擎,以结合图数据库与大模型的优势,从而能够快速从图形数据中获取洞察,并进行更快的向量搜索。

在提升模型调用效率方面。Amazon Memory DB内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。此外,亚马逊云科技还将无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索。

正如亚马逊云科技大中华区产品部总经理陈晓建所言,“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”

例如,北京灵奥科技是一家大模型中间件领域创企。在此之前,北京灵奥科技就已经将整个平台搭建在亚马逊科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基础云服务和数据存储产品,以及基于Amazon Bedrock提供的Claude模型,用于构建Vanus平台的AI Agent助手。


图片来源@灵奥科技

在服务一家南美州服饰类电商企业的过程中,Vanus为Shopify电商客户构建了客服类Agent VanChat。数据显示,通过VanChat提供的用户意图识别、产品推荐等功能加速用户产品购买,提升网站的销售额。VanChat为该客户带来快速的营收增长,仅上线首月ROI高达611%。

从最近的动作来看,擅长从客户需求视角倒推产品,亚马逊云科技已将上述提及的能力抽象为部分产品方案开放出来。(本文首发于钛媒体APP, 作者|杨丽,编辑 | 盖虹达)

相关内容

热门资讯

涉及680万股东!A股下周一正... 文/帅可聪 下周一(7月6日)起,沪深交易所主板风险警示股票(ST股)涨跌幅限制将上调至10%。 今...
2025-2000上市公司医药... 本人将中国上市公司医药数据精心整理为面板数据的形式,医药企业具有471家,5972多个样本,无论是做...
汇川技术:PLC已形成完整系列... 来源:问董秘 投资者提问: 董秘,您好:想问一下贵司在大中型PLC的研发投入和技术发展现在处于什么阶...
原创 董... 昨晚天津卫视黄金档突然上线的《花开如梦》,像是从时间缝隙里掉出来的一部剧,让不少守在电视机前的观众一...
和讯高璐明:突发!券商爆利好!... 券商爆利好,业绩大幅飙升,创历史新高,那么到底对于下周市场会产生多大影响?券商板块未来还有没有上攻的...
国足短期内不会与佛得角交手 近期,关于佛得角可能与国足来一场友谊赛的消息备受关注。 在与阿根廷队赛前,佛得角队首发阵容合影。图...
BC技术接棒、钙钛矿叠层技术蓄... 本报记者 殷高峰 张晓玉 “现阶段光伏项目招标,不配备BC(背接触)组件,基本很难进入业主采购短名单...
原创 海... 新华社德黑兰7月4日电,伊朗伊斯兰革命卫队迎来关键人事变动,阿里·阿兹玛伊少将出任革命卫队海军司令。...
金属3D打印火箭厂商Rocke... 长三角G60激光联盟导读:国外的金属3D打印火箭厂商Rocket Lab,发展速度之快就像坐上了火箭...
嘴歪眼斜是什么病前兆 嘴歪眼斜一般情况下是面瘫、脑卒中、脑梗死等疾病的前兆。 1、面瘫:通常是因为感染因素,也有可能是因为...
上海建工:获政府补助3.48亿... 根据《企业会计准则第16号——政府补助》相关规定,公司将上述与收益相关的政府补助确定为“其他收益”并...
李彦宏最大IPO来了 窗口期。 作者/吴琼 报道/投资界PEdaily “份额抢不到。” 这一幕正在出现在昆仑芯身上。自年...
万全区召开传统制造业数字化升级... 来源:厚德万全 7月3日,万全区召开传统制造业数字化升级与电子商务发展座谈会。区政协、区商务局、...
原创 德... 在全球经济的复杂棋局中,近期德国总理默茨对人民币汇率的言论引发了不小的波澜。他声称人民币“低估了30...
煤科先锋丨从戈壁“小白”到攻坚... (来源:中国煤炭科工集团) 2022年初夏,刚入职不到半年的田凤亮,第一次踏上新疆戈壁深处的露天矿。...
海归博士回国创业,一年狂飙4倍... 文 | 硅基象限,作者 | 张思 一个50后海归博士,扎进全球仅剩三个玩家的“冷门”芯片赛道,做到...
3个月融资35亿,清华90后博... 极佳视界创始人 黄冠 作者 | 邱鑫浩 来源 | 邱处机 投资人正在押注物理AI的到来。 据《投资界...
12亿天价豪宅成交,又一个神秘... 文丨金融八卦女 月月 卖豪宅“续命”的大佬,又多了一个。 近日,香港地产圈诞生了2026年以来最贵...
今夜,欧美全线拉升!黄金白银,... 【导读】平静的一晚 中国基金报记者 泰勒 大家好啊,今晚美股休假,一起简单看看海外市场的表现吧。 7...
上半年880只新基成立创历史新... 财联社7月4日讯(记者 封其娟)2026 年上半年的公募发行市场,呈现出一幅“分裂式繁荣”的图景。 ...