免费AI“神器”系列第七弹:华为首个AI图像生成模型论文公布;克隆数字分身应用近期爆红|钛媒体AGI 免费AI“神器”系列第七弹:华为首个AI图像生成模型论文公布;克隆数字分身应用近期爆红|钛媒体AGI
admin
2024-03-12 15:14:24
0


近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。

今天,钛媒体AGI梳理了免费 AI “神器”系列第七弹,共五款,其中不少产品再一次拓宽了我们对AI的想象力。

华为首个 AI 图像生成模型——PixArt-Σ音乐生成模型——Chat Musician克隆自己的数字分身——D-IDAgent可以读唇语的大模型框架——VSP-LLM医学检索增强生成(RAG)框架——MIRAGE1、华为首个 AI 图像生成模型PixArt-Σ亮相

产品信息:日前,华为诺亚方舟实验室团队在arxiv平台上发布多篇论文,展示华为首个 AI 图像生成模型PixArt-Σ技术,参数规模为6亿左右,其采用与Sora的Diffusion Transformer (DiT) 架构,可直接生成 4K 分辨率的 AI 图像。

产品功能:华为团队在论文中表示,相比其前身PixArt-α,新的PixArt-Σ在训练效率、数据质量、图像标题配对、图像生成质量等方面都有巨大提升,提供明显更高保真度的图像,并改进了与文本提示的一致性。同时,PixArt-Σ以显著较小的模型规模实现了优于现有文本到图像扩散模型,如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)的图像质量和用户提示遵从能力。 华为团队在论文中强调,新的PixArt-Σ可生成 4K 图像能力,从而将有效增强电影和游戏等行业中高质量视觉内容的制作。


体验地址:https://pixart-alpha.github.io/PixArt-sigma-project/

2、可以理解和生成音乐的大语言模型——Chat Musician

产品信息:Chat Musician是一个能理解和生成音乐的开源大语言模型,通过持续预训练和微调LLaMA2,采用文本兼容的音乐表示方式——ABC符号,使模型能够像处理语言文本一样理解和生成音乐。


产品功能:首先是音乐生成功能,ChatMusician可以根据给定的文本提示、和弦序列、旋律线索、音乐主题等,自动生成结构完整、风格多样的音乐作品,性能超越GPT-4的基线。

其次是音乐理解功能,ChatMusician可以理解和分析音乐理论的各个方面,如和声分析、旋律结构、音乐形式等。在专为大学级音乐理解基准测试MusicTheoryBench上,ChatMusician在零样本设置中超过了LLaMA2和GPT-3.5,展示了其在音乐理论理解方面的优异性能。

此外,ChatMusicia还提供了大规模的音乐语言语料库(MusicPile)、音乐理论基准测试(MusicTheoryBench)、模型代码和在线演示,以供研究和教育使用。

项目演示:https://shanghaicannon.github.io/ChatMusician/

论文地址:https://arxiv.org/pdf/2402.16153.pdf

3、克隆自己的数字分身——D-IDAgent

产品介绍:D-IDAgent是生成数字人平台D-ID推出的一项可定制AI化身功能,用户只需通过一张照片就能生成属于自己的AI数字人。

产品功能:用户可以通过上传一张照片或一段语音就能生成属于自己的AI数字人,并且生成的数字人可实现人性化交互。在接受用户指令后,数字人可以通过面部表情和手势以及多种语言进行回应,提供类似真人的面对面沟通体验。此外,D-IDAgent可以通过链接或嵌入到网站上与他人共享AI代理。


据悉,D-ID Agent利用检索增强生成 (RAG) 技术,能够更加了解用户的环境并能在两秒内提供超过 90% 的准确率响应查询,支持多种主要语言,可满足不同用户生成需求。

D-ID Agent的使用场景丰富,电商行业可利用数字人进行广告代言、直播、产品推广和营销;教培行业可利用数字人生成数字教师进行线上授课;视频创作者可以用数字人代替真人拍摄,从而降低视频制作成本,提升视频制作效率。

付费方面,D-ID Agent有14天免费试用期,超过试用期有三种按月付费标准,不同的付费标准对应不同的使用功能,比如在生成视频时长,支持插件和视频水印方面都有区别。


体验地址:https://studio.d-id.com/

4、可以读唇语的大模型框架——VSP-LLM

产品信息:VSP-LLM是一款基于AV-HuBERT模型开发的语言模型框架,该框架将视觉语音处理和大语言模型(LLMs)进行结合,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。

产品功能:VSP-LLM可以通过观察视频中人物的唇部动作,识别和理解说话内容,并将这些内容直接翻译成目标语言文本。同时,利用先进的视觉语音识别技术,结合大语言模型的上下文理解能力,VSP-LLM通过自监督学习,可以智能识别和去除视频中的冗余信息,避免内容重复,提升内容生成速度和准确性。


GitHub:

https://github.com/sally-sh/vsp-llm?tab=readme-ov-file&continueFlag=a18ff0efaae82b7b920d78ac725952b5

论文:https://arxiv.org/abs/2402.15151v1

5、医学检索增强生成(RAG)框架——MIRAGE

产品信息:MIRAGE是一个基于搜索增强生成(RAG)的框架,旨在提高医学问答(QA)任务中的性能。

MIRAGE框架包含来自生物医学领域五个常用QA数据集的7663 个问题,通过在工作中引入的 MedRag工具包对不同语料库、检索器和骨干LLM 的 41 种组合进行了超过 1.8 万亿个提示标记的大规模实验。


产品功能:首先是增强医学问答准确性,通过检索增强生成(RAG)技术,MEDRAG利用最新可靠的医学文档信息来辅助大型语言模型(LLM),提高医学问答任务中的准确性和可靠性。

其次是系统性评估医学RAG系统,MIRAGE基准为医学问答领域的检索增强生成(RAG)系统提供了一个系统性评估平台。这种评估有助于识别哪些方法在处理医学信息时最有效,特别是在准确性和可靠性方面。

再次,提供医学专用工具包,MEDRAG工具包集成了多个领域特定的语言资料库、搜索器和大型语言模型(LLM),支持研究人员在医学问答任务上进行全面的实验和评估。这些组件包括专门为医学领域设计的文档库、针对医学信息优化的搜索算法以及适用于医学问答的LLM。

最后,零样本学习能力,MEDRAG特别关注RAG系统的零样本学习能力,即在没有给出具体例子的情况下,系统能够解答新的、未见过的医学问题。通过提高系统的零样本学习能力,可以确保医学问答系统即使在缺乏特定数据的情况下也能提供准确的答案,显著提高系统在实际应用中的灵活性和有效性。

论文地址:https://arxiv.org/abs/2402.13178

GitHub地址:https://github.com/abi/screenshot-to-code

(本文首发钛媒体App,作者|章橙,编辑|林志佳)


相关内容

热门资讯

2025年中国方便面行业发展状... 今天分享的是:2025年中国方便面行业发展状况与消费行为调查数据-艾媒咨询 报告共计:44页 202...
从“北漂”到“晋创”,一个人就... 清晨,山西阳泉一间安静的书房里,键盘敲击声夹杂着低语。王曙(化名)正对着电脑屏幕“自言自语”——他在...
“十五五”开局看河北 | 民企... 河北数字工商联平台帮助34.8万户企业获得银行授信2523.18亿元 民企信用画像,让融资更高效 ...
吉林农商银行:金融活水润黑土 ... 春节的年味,在吉林的田间地头、集市街巷中弥漫。寒风里,有农户备耕的忙碌,有商户备货的热火,更有吉林农...
肺癌治疗后必复发?这5个关键动... 肺癌治疗中,“复发” 是患者和家属最担心的事,搞得整日忧心。但这一认知并不严谨 —— 肺癌是否复发受...
什么是拼多多代运营?品牌方选择... 随着电商竞争进入“存量博弈”阶段,品牌方的增长焦虑愈发明显。在刚刚过去的财报季,我们看到了阿里(天猫...
原创 美... 前言 最近,国外某些工程论坛上讨论得火热的话题,掀起了不少风波。一些美国工程师看着中国水电的数据...
秋乐种业去年业绩下滑,玉米种子... 新京报贝壳财经讯(记者阎侠)2月27日,记者自秋乐种业发布的2025年年度业绩快报获悉,报告期内,公...
白酒指数周跌1.58%,古井贡... 马年首个交易周,当A股三大股指高歌猛进实现“开门红”时,白酒行业却表现低迷,在春节期间动销没有明显超...
此次“斩首式”打击,有何不同? 美东时间2月27日深夜至2月28日(伊朗时间2月28日上午),美军与以军联合对伊朗发动代号为“史诗怒...
新春走基层|探访江北最大进口葡... 新春伊始,万象更新。2月27日,记者来到青岛西海岸综合保税区,走进江北最大进口葡萄酒集散中心,探访青...
油喉被锁,谁在窒息?深度解析霍... 2026年3月1日 如果世界有一条“油喉”,它的名字必定叫霍尔木兹海峡。 近日,随着中东地缘政治局势...
日本多家银行出售任天堂股票,后... IT之家 3 月 1 日消息,据路透社报道,任天堂于当地时间周五宣布,将解除一系列战略持股,三菱日联...
原创 全... 全球制造业格局近些年来发生了翻天覆地的变化。美国和欧盟各自占据大约17%的市场份额,日韩加起来接近8...
巴菲特接班人首封股东信,来了! 北京时间2月28日晚间,伯克希尔·哈撒韦(下简称“伯克希尔”)发布2025年第四季度以及全年财报。报...
原创 人... 当全世界都在谈论“脱钩”和“关税战”时,中国却在2025年悄悄创下了一个人类经济史上前所未有的纪录:...
多家石油和天然气巨头及贸易商暂... 据贸易消息人士透露,多家油轮船东、石油巨头和贸易商已暂停经霍尔木兹海峡运输原油、燃料和液化天然气。此...
珠海心理咨询中心推荐榜单 在寻求专业心理咨询服务时,选择具备扎实理论根基、规范服务流程与明确专业特色的机构至关重要。本文旨在从...
金价银价,突然飙涨,油价或出现... 当地缘政治风险升温时,资金纷纷涌入黄金等避险资产,推动其价格快速上涨。2月28日,国际金价再度上涨,...
娃哈哈精机公司被决议解散 曾担... 每经记者|叶晓丹 每经编辑|廖丹 近日,有接近杭州娃哈哈精密机械有限公司(以下简称娃哈哈精机)人士...