超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k 超越gpt4的人工智能叫什么 超越gpt
admin
2024-04-07 21:10:35
0

机器之心报道

机器之心编辑部

在大模型落地应用的过程中,端侧 AI 是非常重要的一个方向。

近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社区的极大关注,模型一夜下载量超 2k。

20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 Llama7B + RAG 方案快 36 倍。

不少网友感叹:设备端 AI 智能体的时代到来了!



论文:Octopus v2: On-device language model for super agent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2

模型概述

Octopus-V2-2B 是一个拥有 20 亿参数的开源语言模型,专为 Android API 量身定制,旨在在 Android 设备上无缝运行,并将实用性扩展到从 Android 系统管理到多个设备的编排等各种应用程序。



通常,检索增强生成 (RAG) 方法需要对潜在函数参数进行详细描述(有时需要多达数万个输入 token)。基于此,Octopus-V2-2B 在训练和推理阶段引入了独特的函数 token 策略,不仅使其能够达到与 GPT-4 相当的性能水平,而且还显著提高了推理速度,超越了基于 RAG 的方法,这使得它对边缘计算设备特别有利。



Octopus-V2-2B 能够在各种复杂场景中生成单独的、嵌套的和并行的函数调用。

数据集

为了训练、验证和测试阶段采用高质量数据集,特别是实现高效训练,研究团队用三个关键阶段创建数据集:

生成相关的查询及其关联的函数调用参数;由适当的函数组件生成不相关的查询;通过 Google Gemini 实现二进制验证支持。



研究团队编写了 20 个 Android API 描述,用于训练模型。下面是一个 Android API 描述示例:

def get_trending_news (category=None, region='US', language='en', max_results=5):

Fetches trending news articles based on category, region, and language.

Parameters:

- category (str, optional): News category to filter by, by default use None for all categories. Optional to provide.

- region (str, optional): ISO 3166-1 alpha-2 country code for region-specific news, by default, uses 'US'. Optional to provide.

- language (str, optional): ISO 639-1 language code for article language, by default uses 'en'. Optional to provide.

- max_results (int, optional): Maximum number of articles to return, by default, uses 5. Optional to provide.

Returns:

- list [str]: A list of strings, each representing an article. Each string contains the article's heading and URL.

模型开发与训练

该研究采用 Google Gemma-2B 模型作为框架中的预训练模型,并采用两种不同的训练方法:完整模型训练和 LoRA 模型训练。

在完整模型训练中,该研究使用 AdamW 优化器,学习率设置为 5e-5,warm-up 的 step 数设置为 10,采用线性学习率调度器。

LoRA 模型训练采用与完整模型训练相同的优化器和学习率配置,LoRA rank 设置为 16,并将 LoRA 应用于以下模块:q_proj、k_proj、v_proj、o_proj、up_proj、down_proj。其中,LoRA alpha 参数设置为 32。

对于两种训练方法,epoch 数均设置为 3。

使用以下代码,就可以在单个 GPU 上运行 Octopus-V2-2B 模型。

from transformers import AutoTokenizer, GemmaForCausalLMimport torchimport time

def inference (input_text):

start_time = time.time ()

input_ids = tokenizer (input_text, return_tensors="pt").to (model.device)

input_length = input_ids ["input_ids"].shape [1]

outputs = model.generate (

input_ids=input_ids ["input_ids"],

max_length=1024,

do_sample=False)

generated_sequence = outputs [:, input_length:].tolist ()

res = tokenizer.decode (generated_sequence [0])

end_time = time.time ()

return {"output": res, "latency": end_time - start_time}

model_id = "NexaAIDev/Octopus-v2"

tokenizer = AutoTokenizer.from_pretrained (model_id)

model = GemmaForCausalLM.from_pretrained (

model_id, torch_dtype=torch.bfloat16, device_map="auto"

input_text = "Take a selfie for me with front camera"

nexa_query = f"Below is the query from the users, please call the correct function and generate the parameters to call the function.\n\nQuery: {input_text} \n\nResponse:"

start_time = time.time () print ("nexa model result:\n", inference (nexa_query)) print ("latency:", time.time () - start_time,"s")

评估

Octopus-V2-2B 在基准测试中表现出卓越的推理速度,在单个 A100 GPU 上比「Llama7B + RAG 解决方案」快 36 倍。此外,与依赖集群 A100/H100 GPU 的 GPT-4-turbo 相比,Octopus-V2-2B 速度提高了 168%。这种效率突破归功于 Octopus-V2-2B 的函数性 token 设计。



Octopus-V2-2B 不仅在速度上表现出色,在准确率上也表现出色,在函数调用准确率上超越「Llama7B + RAG 方案」31%。Octopus-V2-2B 实现了与 GPT-4 和 RAG + GPT-3.5 相当的函数调用准确率。



相关内容

热门资讯

原创 高... 你有没有发现,几年前人人都在拼命买房,而现在,越来越多人开始思考,房子,到底还是不是财富? 这几年,...
这个春节,中国经济热力值拉满 2026年的春节,注定要在中国消费市场上留下浓墨重彩的一笔。 当9天的超长假期遇上持续加码的政策红利...
2026年中国汽车产业十大趋势... 2025年,中国汽车产业在连续17年产销量稳居全球第一的基础上,再次交出了一份充满变革与挑战的答卷。...
2022年天猫烘焙厨电行业趋势... 今天分享的是:2022年天猫烘焙厨电行业趋势白皮书 报告共计:7页 烘焙厨电迎来新变革:从“功能单一...
春节假期县城网吧人气旺,网吧又... 作者 | 豹变 张经纬 春节假期到来,如果你问回到老家的中青年男性假期玩什么,网吧可能是一个答案。...
上海“小巨人”要敲钟了!商米科... 马年伊始,港股市场就再度迎来一家上海本土科技企业。 据港交所消息,近日,上海商米科技集团股份有限公司...
原创 川... 当特朗普的关税武器让美国最高法院“缴械”时,中国、巴西反而从与美国关税战最大的受害者,变成了“最大的...
原创 刚... 白宫新闻办公室刚向媒体证实,特朗普3月底访华,最高法院转头就砸下一记重锤。 九位大法官裁定,特朗普的...
美国出手 5 亿美元委国石油,... 美国方面透露,已完成首批价值 5 亿美元的委内瑞拉石油出售,后续还将继续推进更多相关交易。这批原油大...
筑强基金集群 精准“滴灌”重点... 当下,产业投资基金已成为发展新质生产力的重要抓手,正发挥着日益重要的作用,如何引来金融活水浇灌“产业...
关于“十五五”期间支持科技创新... 财政部 中央宣传部 国家发展改革委 教育部 科技部 工业和信息化部 民政部 商务部 文化和旅游部 国...
雄安综合保税区全域封关运营 2月24日,海关总署批复同意雄安综合保税区(二期)通过验收,标志着规划面积0.63平方公里的雄安综合...
中加敲定重磅合同,特朗普对华能... 加拿大总理卡尼访华成果丰硕,不仅推动中加经贸合作迈上新台阶,更向其他西方国家释放出积极信号。在美加关...
成都和鸿科技IPO辅导备案,获... 2026年2月14日,证监会官网披露,长江证券已提交《关于成都和鸿科技股份有限公司首次公开发行股票并...
原创 马... 当诺奖得主Demis Hassabis把“推导出广义相对论”设为AGI的及格线时,整个科技圈炸了——...
滴滴春节出行数据:“反向过年”... 流动中国年味浓,人们“马”不停蹄奔向团圆。滴滴出行数据显示,“双向奔赴”成2026年春节出行新看点,...
去年韩国上市公司派息达48万亿... 来源:环球市场播报 周二公布的行业数据显示,受韩国股市前所未有的上涨行情推动,2025年韩国上市公司...
九识智能再获3亿美元融资,估值... 图为九识无人车 36氪获悉,九识智能近日完成新一轮超3亿美元融资,估值突破百亿人民币。这也意味着,就...
央行明日开展6000亿元MLF... 中国人民银行持续加码中长期资金投放,中期借贷便利(MLF)将连续12个月加量续做。 中国人民银行2月...