对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR 对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR
admin
2024-03-15 08:52:45
0



在基于知识网络的机器人任务规划中,机器人无法无限延展超出封闭的知识网络范围的内容,大语言模型的出现为这项研究带来了新的转机。

作者 | 乔燕薇

编辑 | 吴 彤

现代化社会,哪些工作场景最需要机器人的帮助?

在工业领域,有著名的机器人“四大家族”——发那科、ABB、安川、库卡,经过百余年的发展技术越发成熟,在工业场景已经得到深入而广泛的应用。

相比之下,生活场景中的服务型机器人历史则短得多。

例如在餐饮场景,烹饪过程的标准化程度远远不如工厂流水线,这为烹饪机器人的研发带来了很大难度,在烹饪流程、烹饪方式、火候控制等环节,存在着诸多难题。

直到近年来这一方向才逐渐有所发展。

在2022年举办的北京冬奥会上,烹饪机器人已经进入智慧餐厅,烹饪中餐、西餐的各种菜品。

根据国外调研组织Market Research Future 发布的报告,2022年~2026年间,全球机器人烹饪设备的市场规模将成长至超1亿美元,年复合增长率近20%。

南佛罗里达大学计算机科学与工程系教授孙宇多年来一直致力于机器人领域相关研究,早在2015年便已开始尝试将知识图谱应用于机器人任务规划。

大模型技术出现之后,为人机的协同交互带来了巨大的影响。

虽然与小语言模型的模型架构和与训练目标类似,但大语言模型在大幅度扩展了模型大小、预训练数据和总计算量(扩大倍数)后,不但能够更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本,还展现出了一项全新的特征:涌现。

涌现为大语言模型带来的几种最具代表性的能力——上下文学习、指令遵循、循序渐进的推理等,使其在机器人研究发挥出更大的作用,大语言模型开始成为机器人任务规划研究中的一项重要工具。

自去年以来,孙宇教授开始尝试将大语言模型应用在烹饪机器人任务规划之中。

近期,相关论文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability,上线初创期刊《人工智能与机器人研究国际期刊》(IJAIRR)。

借此契机,孙宇教授向雷峰网介绍了该论文的研究过程,以及烹饪机器人研究中存在的难题。

论文链接:

https://gairdao .com/doi/10.1142/S2972335324500029

https://www.worldscientific.com/doi/10.1142/S2972335324500029

01

基于知识网络的机器人任务规划

机器人任务规划即根据机器人的能力、任务需求及环境条件等因素,为其制定一系列详细的行动方案,使其在复杂的环境中,高效、安全、准确地完成任务。

在这一过程中,有许多复杂的因素需要考虑。

例如,机器人的移动路径需要适应工作环境中障碍物的分布,以避免碰撞;

任务执行的时间与顺序需要根据实际情况进行优化;

在交互方式上,还需要保证机器人的行为与指令易于理解等等。

早在2015年,孙宇教授及其团队就开始将知识网络在机器人任务规划之中,基于网络进行烹饪领域相关知识的采集和整合,指导机器人执行烹饪任务。


南佛罗里达大学孙宇教授

研究中使用的知识网络,正是由孙宇教授所带 领的机器人概念和行为实验室(RPAL)所发明的面向功能对象网络(Functional Object-Oriented Network,简称 FOO N)。

这是一个存储功能对象和操作信息的中心知识网络系统,可以通过处理在线视频、文本获取功能对象和操作信息。

经过一定的标注和矫正,这个知识网络可以很可靠的提供各种烹饪任务规划树。如果要求的烹饪任务的功能单元(functional unit)是FOON里有的,FOON可以给出100%正确和高效的任务规划树。

如果要求的烹饪任务的功能单元是FOON里没有的,但很相像,这个知识网络可以给出非常可靠高效的任务规划树。

但是如果要求的烹饪功能单元与FOON里功能单元没有任何相关,FOON就很可能给出错误的规划树。因为知识网络是封闭的,机器人无法无限延展超出知识网络范围的内容。

直到大语言模型的出现,为这项研究带来了新的转机。

02

如何规划一个知识库中完全不存在的任务?

烹饪机器人如何才能生成一个知识库中不存在的任务?

随着大模型技术的发展,自去年以来,孙宇教授及其学生Sadman Sakib博士开始尝试使用大语言模型技术(LLM)进行机器人任务规划。


Sadman Sakib博士

在自然语言处理、任务规划和执行以及人机交互等方面,GPT-4展现出强大的能力。

论文中以烹饪任务为例进行了介绍。


在接收到用户关于烹饪某样食物的指令后,传统的机器人规划方法通常只会生成一个任务计划,而该论文通过GPT-4这一语言模型的提示工程,生成了多个不同的高级任务规划,并以任务树的形式进行展现。

这些任务树为机器人提供了多种可能的执行方案,不同方案的资源需求、并行时间、风险各有不同。

利用Graph Merger(图形合并器)将这些任务树合并成一个统一网络后,再通过比较和分析剔除其中不可靠的组件,例如执行成本过高的节点,再将筛选出的正确、有效的组件进行集成,最终形成一个最优的解决方案,极大地提高了规划的准确性与整体任务执行的效率。

由于机器人无法直接执行高级任务计划,GPT-4还需要扮演翻译者的角色,将这一高级任务计划从自然语言的形式转化为低级的PDDL计划,用PDDL语言来描述并求解规划任务,使人类可以理解的语言转换为机器人可以理解的指令。

例如,当烹饪机器人收到“制作一碗包括胡萝卜、卷心菜和豆子的面条”这一任务后,GPT-4生成了多个高级任务计划,并将其合并、筛选得到一个最优的任务树,将其转化为PDDL计划,把这项工作分解成“拿起瓶子”、“将油葱瓶子中倒进锅里”等动作序列,再由机器人执行。

值得一提的是,孙宇团队通过研究表明,合并食谱可以通过让食谱共享信息并学习多样化的子任务方法,从而发现创新的烹饪方法。

于是研究团队创建了多个食谱及其对应的任务树,并合并为一个网络后,成功将不同食谱中的烹饪步骤和技巧融合在一起,形成了新的烹饪流程。

这些融合后的任务树不仅展示了烹饪任务的多样性,还揭示了不同子任务之间的潜在联系和互补性,构建出了一个更为丰富和复杂的烹饪网络。

“也就是说,有了这个网络,不仅能实现传统菜肴的制作,还能够创造出更加新颖、独特的菜品,为烹饪艺术注入了新的活力。”

孙宇教授指出,对这项研究进一步优化后,将开发出更加高效和智能的烹饪机器人或系统。

03

大语言模型与知识网络的相互补充

孙宇教授从事机器人领域的研究已二十余年。在USF,孙宇教授带领的机器人概念和行为实验室(RPAL)多年来围绕机器臂抓取和操作、人机交互、医学影像及虚拟现实、机器触觉及力学传感控制等诸多方向进行了大量研究。

后来在机器人任务规划研究中得到大量应用的FOON这一成果,就是出自RPAL。


孙宇教授与RPAL实验室成员合照

大语言模型和知识网络FOON有天然的互补性。以GPT-4为代表的大语言模型,虽然能够从开放的网络环境中学习各种任务规划,但产生的规划却未经把关,无法保证其正确性。

而有FOON里整合的任务规划树是经过人工标注和验证过100%正确的,但是它是有限的和不完全的。

所以可以用大语言模型来产生多个不保证正确的任务树,然后用FOON的结构特点来合并这些任务树,消除不正确的功能单元,由别的树或FOON里正确的功能单元所取代,来提高正确率。

此外,该研究具有很好的泛化能力,并不局限于烹饪场景,只需调整少量组件或不调整组件,即可为许多不同工作场景中的机器人找到最优计划。

孙宇教授指出,当前的机器人任务规划研究中仍旧存在许多挑战。

当机器人遇到任务规划或运动规划错误、系统故障等情况时,可能会导致任务失败,如何使机器人任务失败后自助纠正计划错误是一项至关重要的课题。

团队未来的研究将进一步关注环境反馈的影响,尝试使机器人借助视觉系统与GPT-4准确地识别与更新环境状态,从而减少或避免机器人纠正计划错误时的人为干预,使其自主应对任务失败的情况。

专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语

专访GAIR研究院院长朱晓蕊:以Web3技术为引擎,推动「去中心化科学期刊」的新时代

人工智能与机器人研究国际期刊(IJAIRR)正式成立,重点关注AI、机器人及基础科学交叉学科丨 GAIR 2023

相关内容

热门资讯

国联银行间1-3年中高等级信用... 2月28日,国联银行间1-3年中高等级信用债指数(003081)发布公告,基金经理王玥因工作安排于2...
GDP增长5.0%!2025年... 据央视新闻消息,2月28日,国家统计局发布《中华人民共和国2025年国民经济和社会发展统计公报》。
最快3月秘密交表!SpaceX... 据“财联社”2月28日消息,最新市场传闻显示,世界首富马斯克旗下民营航天公司SpaceX正推进IPO...
startrader:中东局势... 2 月 27 日夜间,受中东地缘局势急剧升温影响,全球避险情绪集中爆发,国际黄金、白银、原油三大品种...
折扣叠加财政贴息 银行信用卡账... 本报记者 彭妍 今年1月份,财政部等三部门优化实施个人消费贷款财政贴息政策。在政策支持下,多家银行加...
东莞A股上市公司市值站上800... 界面新闻记者 | 梁宝欣 界面新闻编辑 | 林腾 2月26日,东莞召开新春第一会,主题为“资本赋...
国内实力AI超级员工公司哪家强... 国内实力AI超级员工公司哪家强?这篇给你靠谱答案! 在数字化发展的当下,AI超级员工领域迅速崛起,众...
最强业绩下市值蒸发万亿,全球最... 「核心提示」 当“超预期”成为常态,英伟达的下一个叙事在哪里? 作者 | 张经纬 编辑 | ...
华尔街血色周五!MFS危机涉及... 财联社2月28日讯(编辑 潇湘)周五,华尔街贷款机构因英国一家名不见经传的抵押贷款供应商——MFS的...
干细胞研发机构—打干细胞真的有... 关于“干细胞研发机构—打干细胞真的有用吗”详情 可以添加微信或拨打电话 【微信:nanyu4390】...
消息称马斯克的 SpaceX ... 感谢IT之家网友 的线索投递! 2 月 28 日消息,据彭博社今日报道,知情人士透露,埃隆 · 马...
英伟达公布业绩后股价再度大跌 ... 【CNMO科技消息】当地时间2月27日,全球市值最高的上市公司英伟达在公布业绩后连续第二天走弱,同时...
雷军马年首播 2月27日晚,小米集团董事长雷军开启春节假期后的首场直播,也是马年的首场直播,2026年的第6场直播...
银行“盯上”儿童压岁钱 “一张存单,承载孩子成长的每一个美好瞬间。少儿专属存款3年期年利率1.91%,额度有限先到先得。”刚...
深交所晒出“十四五”成绩单 服... ◎记者 时娜 累计服务实体经济直接融资规模超12万亿元,新增上市公司649家,IPO募集资金6023...
消息称SpaceX将秘密提交I... IT之家 2 月 28 日消息,据彭博社今日报道,知情人士透露,埃隆 · 马斯克的 SpaceX 公...
年味里的消费迁移:2026春节... 2026 年作为 “十五五” 开局之年,其春节消费市场展现出消费从功能满足向 “意义与价值” 驱动转...
手机集体涨价后,汽车会是下一个... 继存储芯片成本的飙升导致手机集体涨价,汽车是否也会因此涨价成为大众关注的新焦点。汽车存储芯片主要分为...
新规后首批!4只互认基金获批,... 财联社2月28日讯(记者 闫军)财联社记者从业内独家获悉,2月27日,互认基金新规后首批4只互认基金...
“十五五”开局看河北|民企信用... (来源:河北新闻网) 转自:河北新闻网 河北数字工商联平台帮助34.8万户企业获得银行授信2523....