有没有嫌弃GPT内容生成太慢的?总算有公司在解决这问题了 为什么我的gpt4.0生成内容慢 gpt如何提高开发速度
admin
2024-02-21 11:44:47
0


今天一上班,又刷到国外一家公司整了个新活。

这家叫Groq的公司推出了一个聊天机器人页面,看起来比ChatGPT还要粗糙,页面上什么指示都没有,本来实在是提不起什么兴趣。


直到我看了下面这个演示视频。。。

很难想象,这是AI“生成”内容的速度,看起来和直接找到答案然后复制粘贴过来一样。

硅基君问GPT一个问题等他输入的空余还能回几条微信。。。

我们仔细观察上面的视频,可以发现在Groq测试中有一个在其他大模型网站一般不会显示的参数——325.68 T/s。

这一个参数也是Groq在推广页面中着重强调的,具体意思是大模型每秒可以计算多少tokens。


简单说一下tokens在大模型中是干什么的。在大模型训练、推理、生成的时候,会把文本切分成最小单元即token。比如你问chatgpt一个问题,chatgpt会先把你完整的话切成tokens再进行计算。当chatgpt回答的时候,也不是一下子全部输入出来,而是一个token一个token的蹦出来。

chatgpt是如何切分文本的,可以参考OpenAI的分词器网页。比如“希望老黄送我一张4090显卡玩扫雷”这句话,chatgpt就会把它切分成22个tokens。


https://platform.openai.com/tokenizer

据ArtificialAnalysis.ai的测评数据,Groq提供的Mixtral 8x7B 接口创下了新的大模型吞吐量记录,达到每秒430 Tokens。

当然,Groq到底有多快,还是要多方比较才能有个完整概念。在github有一个针对70B大模型在不同平台运行速度的测试。可以发现,无论是每秒生成tokens还是响应速度,Groq都是遥遥领先。



天下武功唯快不破,这个说法对大模型也同样适用。就在不久前,互联网上就出现针对chatgpt是不是变慢的讨论。有人说是OpenAI对免费用户进行限制,具体怎么回事硅基君也不清楚,但可以看出大模型生成的速度的确是用户的一个痛点。


可以想象一下,电商公司为了提高用户的体验,引入AI客服,同样的话术,秒回和隔个10几秒再回,用户的体验会天差地别。

类似的还有AI直播,AI写作等等。在大模型的落地应用环节,大模型生成速度一定很重要。

但实际上,Groq回答问题准确度实在堪忧,稍微复杂一点的问题基本都得不到正确答案,看起来就和那位最近爆火的胡言乱语大妈似的。


不过,人家Groq可不是卖大模型的,人家是卖AI芯片的。

简单来说,它们想宣传的点,是“用了我家的芯片,你的模型生成内容的速度也可以这么快。”

甚至直接喊话黄仁勋,这块芯片推理速度比英伟达的快10倍!

Groq自研的芯片称作LPU。

据官网所说,Groq是一家生成式AI解决方案公司,也是市场上最快的语言处理加速器LPU推理引擎的创建者。

它从头开始构建,可大规模实现低延迟、高能效和可重复的推理性能。客户依靠LPU推理引擎作为端到端解决方案,以10倍的速度运行大型语言模型 (LLM) 和其他生成式AI应用程序。

也就是说,任何模型在LPU上运行,在速度上都能获得提升。

为了推广自己的LPU,Groq甚至在官网上喊话AI界大佬Meta的扎克伯格和OpenAI的阿尔特曼。



在LPU的技术层面上,据官网介绍,它旨在克服两大LLM瓶颈:计算密度和内存带宽。

就LLM而言,LPU比GPU和CPU具有更高的计算能力。这减少了每个单词计算所需的时间,允许更快地生成文本序列。此外,消除外部内存瓶颈使得LPU推理引擎在LLM上的性能相比GPU有了数量级的提升。


根据twitter网友解释,LPU之所以比GPU快,主要原因在于它使用的存储技术和架构设计。

LPU使用SRAM(静态随机访问存储器),而不是GPU常用的HBM(高带宽内存)。SRAM的访问速度大约是HBM的20倍,这使得LPU在处理数据时能够更快地访问和处理数据此外,LPU采用的时间指令集计算机架构减少了对内存的重复访问需求,进一步提高了处理效率。

说人话,举个形象的例子就是:

把LPU和GPU比作两个厨师,LPU有一个高效的工具箱(SRAM),里面装着他需要的所有材料,他可以随手拿到任何东西,不需要走远路。而GPU的材料都在一个大仓库(HBM)里,每次需要材料时,都要跑到仓库去拿,这就花费了更多时间。即使仓库很大,能存很多材料(高带宽),但往返跑动的时间就使得整个烹饪过程变慢了。

SK海力士看到它说HBM不好用了岂不是着急死?


简单看完LPU的技术,Groq背后的团队来头也不小。

Groq不是横空出世,它成立的背后也有谷歌的影子(结合最近另一个热点sora,心疼一下谷歌)。

Groq是由谷歌前雇员Jonathan Ross创建的企业,在加州成立于2016年。Jonathan Ross也是谷歌TPU最早的团队成员。


TPU对于谷歌来说,基本上覆盖了它们的大部分算力需求。据悉,Google今天宣布的最强大、最通用的人工智能模型 Gemini是使用 TPU 进行训练和服务的。

回到模型本身,一般而言算力的变化只会影响模型推理的速度,但由于大模型的计算量不小,其小数位数不断优化后,可能会发生点变化。那么Groq的LPU与GPU相比,对大模型生成的质量会产生影响吗?

硅基君问了Groq上的Llama-2-70b和POE上的Llama-2-70b,同样一个问题“Introduce Elon Musk in 100 words”。

在速度上两个平台都差不多,结果上有略微不同,但基本上还算通顺。


目前Groq支持api接入,一共提供了3个模型,分别是Llama 2 70B、Llama 2 7B 和Mixtral 8x7B SMoE。价格上,Groq也是相当便宜,Llama 2 70B输入和输出价格分别为0.7$/1000k tokens 和 0.8$/1000k tokens。价格方面,Groq保证,一定低于市面上同等价格。


这几天,sora刷屏全网,但别的公司也没有闲着。谷歌发布了Genimi pro 1.5,支持1000K的上下文长度,把大模型的宽度拉长了不少。而Groq带来了LPU,把大模型的生成速度提高了10倍。

结合之前大模型在算力和规模上的改善,硅基君很期待大模型的继续进化。

全文完。

参考资料:

[1]10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队 | 机器之心

[2]可能是全球最快的大语言模型推理服务Groq:实测每秒500个tokens输出的450亿参数的Mixtral 8×7B模型 | DataLearner

[3]Groq技术新突破:Mixtral 8x7B模型实现每秒500个tokens的生成速度 | 思辨view

作者:董道力

编辑:张泽一

视觉设计:疏睿

责任编辑:张泽一

关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。

相关内容

热门资讯

提振消费,如何增强供需适配性 云南大理白族自治州,游客(左)与摄影师一起挑选照片。 北京朝阳区,一名智能柜补货员在卸货。 以上图...
贝仕达克:预计2025年度净利... 每经AI快讯,贝仕达克1月30日晚间发布业绩预告,预计2025年归属于上市公司股东的净利润860万元...
英媒:随着就业市场降温,美国大... 来源:格隆汇APP 格隆汇1月30日|据英国金融时报,本周,美国的一些大型企业公布了裁员计划,预计将...
终结5连败!德约3-2逆转辛纳... 北京时间1月30日,2026赛季网球大满贯澳大利亚公开赛继续进行,在男单下半区的半决赛中,塞尔维亚天...
去年辽宁非金融企业债务融资达6... 1月30日,人民银行辽宁省分行召开2026年一季度新闻发布会,介绍2025年度辽宁省金融运行主要情况...
“大V带货”遭监管重拳:基金销... 记者 洪小棠 1月29日,证监会证券基金机构监管司发布了新一期《机构监管情况通报》(下称《通报》),...
ST宁科完成组织架构重大调整 ... 来源:新浪财经-鹰眼工作室 【财经网讯】宁夏中科生物科技股份有限公司(证券代码:600165,股票简...
原创 i... 很多人看到苹果这份“史上最强”季度成绩单时,第一反应都是:这销量也太夸张了吧? 尤其是大中华区 ...
Cloudflare入驻B站和... IT之家 1 月 30 日消息,Cloudflare 宣布入驻B站和小红书,认证显示为“Cloudf...
首日涨超160% 智能制造装备... 上证报中国证券网讯(记者 张雪)1月30日,美德乐正式登陆北交所。截至当日收盘,公司股价报109.5...
特朗普提名下一任美联储主席 据新华社消息,美国总统特朗普30日提名美联储前理事凯文·沃什为下任美联储主席,这一提名还需获得参议院...
由盈转亏、业绩下滑超85%!2... 面对每天上千份上市公司公告该看哪些?重大事项公告动辄几十页几百页重点是啥?公告里一堆专业术语不知道算...
原创 华... 金价的上涨和美元的下跌已经让整个依赖美西方货币体系和金融体系获利的人感受到了巨大的威胁。 在美国财政...
康佳集团原董事长周彬、原副总裁... 老牌家电巨头康佳集团(000016)在经历控制权变更与管理层换血的震荡期后,迎来了更为剧烈的“余震”...
安诚财险2025年揽收保费52... (图片来源:视觉中国) 蓝鲸新闻1月30日讯(记者 陈晓娟)日前,安诚财产保险股份有限公司(下称“安...
国际金价、银价,暴跌! 据新华社1月30日消息,国际黄金和白银价格1月29日上演“过山车”行情,双双站上高位后又暴跌,市场剧...
A股115家半导体公司2025... 近期,A股半导体行业上市公司陆续披露半年度业绩预告。据集微网统计,截至2026年1月30日,在已披露...
一图读懂服务消费新政:涉及交通... 红星资本局1月30日消息,为优化和扩大服务供给,聚焦重点领域、潜力领域,加快培育服务消费新增长点,促...
沪农商行:着力于稳健运营、控制... 证券日报网1月30日讯 ,沪农商行在接受调研者提问时表示,投资交易策略方面,公司将基于对2026年宏...
实力“圈粉”全球客:去年上海离... 记者从市税务局获悉,2025年境外旅客在沪办理退税申请单数量同比增长3倍,退税商品销售额和退税额均增...