Meta大动作!开源多感官AI模型,不仅能看会听,还能“感知温度”|世界新资讯
Meta大动作!开源多感官AI模型,不仅能看会听,还能“感知温度”
(资料图片仅供参考)
来源:华尔街见闻 葛佳明
Meta带着ImageBind再次冲进AI战场,当AI拥有了多种感官,且学会“脑补”,Meta的元宇宙梦还远吗?
前段时间,带着开源模型LlaMA“杀的”谷歌和微软“措手不及”的Meta,又一次在AI战场上丢下了一颗重磅炸弹。
今天,Meta重磅开源了多感官AI模型ImageBind。以视觉为核心,结合文本、声音、深度、热量(红外辐射)、运动(惯性传感器),最终可以做到6个模态之间任意的理解和转换。
这也是第一个能够整合六种类型数据的AI模型。
如何让AI以更接近人类的方式理解这个世界?——也让AI拥有多种感官,学会“脑补”。
一张大海的照片可以让我们的脑海里响起海浪的声音,回忆起海边腥咸的味道。当我们听到瀑布声,脑海里便会浮现恢弘的瀑布奇观。
Video Player is loading.
Play Video
Play
Loaded: 0%
Current Time0:00
/
Duration0:00
Mute
Fullscreen
This is a modal window.
No compatible source was found for this media.
Beginning of dialog window. Escape will cancel and close the window.
Text
Color
White
Black
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Opaque
Semi-Transparent
Background
Color
Black
White
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Opaque
Semi-Transparent
Transparent
Window
Color
Black
White
Red
Green
Blue
Yellow
Magenta
Cyan
Transparency
Transparent
Semi-Transparent
Opaque
Font Size
50%
75%
100%
125%
150%
175%
200%
300%
400%
Text Edge Style
None
Raised
Depressed
Uniform
Dropshadow
Font Family
Proportional Sans-Serif
Monospace Sans-Serif
Proportional Serif
Monospace Serif
Casual
Script
Small Caps
Reset restore all settings to the default valuesDone
Close Modal Dialog
End of dialog window.
Meta指出,未来还将有其他可以被添加到模型中的感官输入流,包括“
触摸、讲话、气味和大脑fMRI(功能性磁共振成像)信号”。
与此同时,ImageBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片和视频。
尽管目前ImageBind只是一个研究项目,但它展示了未来人工智能生成多感官感知的可能性,或许也使Meta的元宇宙梦更近了。
Meta在论文中解释称,他们把不同模态数据串联在了一个嵌入空间(Embedding Space),让其从多维度理解世界。
有网友评价道,imageBind的出现使AI发展过程中又迎来了激动人心的时刻:
有网友评论称,ImageBind的诞生就是为了模拟人类感知。ImageBind面世,贾维斯也不远了。
英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。
不过,对于Meta开源大模型的做法,也有人提出了质疑。如OpenAI便表示,这种做法对创作者有害,竞争对手可以随意复制且可能具有潜在的危险,允许恶意行为者利用最先进的人工智能模型。
更接近人类感知的元宇宙?
相比Midjourney、Stable Diffusion和DALL-E 2这样简单的将文字与图像配对的生成器,ImageBind试图让AI更接近人类的思考和感知方式:
这个模型利用到了图像的绑定(binding)属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。
简单来说就是图像成为了连接这些模态的桥梁。
例如Meta利用网络数据将文本与图像连接起来,或者利用带有IMU传感器的可穿戴相机捕捉到的视频数据将运动与视频连接起来。
Meta在论文中指出,ImageBind的图像配对数据足以将这六种模态绑定在一起。
模型可以更全面地解释内容,使不同的模态相互“对话”,并找到它们之间的联系。
例如,ImageBind可以在没有一起观察音频和文本的情况下将二者联系起来。这使得其他模型能够“理解”新的模态,而不需要任何资源密集型的训练。
具体而言,ImageBind利用网络规模(图像、文本)匹配数据,并将其与自然存在的配对数据(视频、音频、图像、深度)相结合,以学习单个联合嵌入空间。
这样做使得ImageBind隐式地将文本嵌入与其他模态(如音频、深度等)对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。
与此同时,Meta表示,ImageBind可以使用大规模视觉语言模型(如 CLIP)进行初始化,从而利用这些模型的丰富图像和文本表示。因此,ImageBind只需要很少的训练就可以应用于各种不同模态和任务。
如果与其他AI结合,还可以做到跨模态的生成。
比如听到狗叫画出一只狗,同时给出对应的深度图和文字描述。
甚至还做到不同模态之间的运算,如鸟的图像+海浪的声音,得到鸟在海边的图像。
对此,Meta在其官方博客中也说道,“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是,它能更好地一起分析许多不同形式的信息,从而推进人工智能的发展。”
Meta团队认为,ImageBind为设计和体验身临其境的虚拟世界打开了大门。或许也让Meta离幻想中的元宇宙世界更近了一步。
可以怎么搜?
模型具体可以怎么用?Meta开放了模型演示,具体包括:
使用图像检索音频
以图像或视频作为输入,可以生成音频。比如选择一张小狗的图片,就能够检索到狗吠的音频。
使用音频检索图像
通过一个音频片段,给出一张对应的图。听着鸟鸣,小鸟的图片便出现了。
使用文本来检索图像和音频
选择下面的一个文本提示,ImageBind将检索与该特定文本相关的一系列图像和音频片段。
使用音频+图像来检索相关图像
给一段狗叫声再加一张海滩的图片。ImageBind可以在几分钟内检索出相关图像。
得到了一张“狗望海”的图:使用音频来生成图像
要想实现音频生图像,ImageBind需要和其他模型一起结合用,比如 DALL-E 2等生成模型。
来个下雨哗啦啦的声音,身在其中的意境图就来了。
ImageBind的性能有多卓越?——打败专家模型
在Meta研究科学家于近期发布的题为《IMAGEBIND:一个嵌入空间绑定所有模态》的论文中指出,ImageBind模型的第一大优势在于,仅通过很少的样本及训练,模型性能便可提高:
Meta的研究表明,视觉模型越强,ImageBind对齐不同模态的能力就越强。
在实验中,研究人员使用了 ImageBind 的音频和深度编码器,并将其与之前在zero-shot检索以及音频和深度分类任务中的工作进行了比较。
结果显示,ImageBind可以用于少量样本的音频和深度分类任务,并且优于之前定制的方法。
而以图像/视频为中心训练好AI后,对于原始数据中没有直接联系的模态,比如语音和热量,ImageBind表现出涌现能力,把他们自发联系起来。
在定量测试中,研究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。
在基准测试上,ImageBind 音频和深度方面优于专家模型
比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。
Meta希望,AI开发者社区能够探索ImageBind,来开发其可以应用的新途径。
Meta认为,关于多模态学习仍有很多需要探索的地方。ImageBind这项技术最终会超越目前的六种“感官”,其在博客上说道,“虽然我们在当前的研究中探索了六种模式,但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
炒股开户享福利,送投顾服务60天体验权,一对一指导服务!标签:
推荐
-
天天热点评!电科数字: 中电科数字技术股份有限公司关于控股股东及其一致行动人签订《股权委托管理协议》的公告
电科数字:中电科数字技术股份有限公司关于控股股东及其一致行动人签订《股权委托管理协议》的公告
来源: -
-
-
-
-
Meta大动作!开源多感官AI模型,不仅能看会听,还能“感知温度”|世界新资讯
Meta大动作!开源多感官AI模型,不仅能看会听,还能“感知温度”来源:华尔街见闻葛佳明Meta带着ImageBind
来源: -
-
-
-
-
-
-
-
-
近3个交易日下跌14.22%,*ST雪发:关联方事项不会对公司产生重大不利影响 当前热门
近3个交易日下跌14 22%,*ST雪发:关联方事项不会对公司产生重大不利影响,股权,公司股票,*st雪发
来源: -
天天热点评!电科数字: 中电科数字技术股份有限公司关于控股股东及其一致行动人签订《股权委托管理协议》的公告
电科数字:中电科数字技术股份有限公司关于控股股东及其一致行动人签订《股权委托管理协议》的公告
来源: -
-
-
-
-
-
-
-
-
-
-
罗永浩的“交个朋友”正式注入上市公司,世纪睿科拟改名“交个朋友控股有限公司”
DoNews5月10日消息,世纪睿科(HK 01450)控股有限公司发布公告,宣布拟改名为「交个朋友控股有限公司」,
来源: -
-
-
-
-
-
-
-
-
-
-
新动态:Gurman:苹果将在iPhone 16 Pro/Pro Max机型中采用固态按钮
驱动中国2023年5月8日消息,此前苹果分析师郭明錤曾透露,苹果 iPhone 15 Pro 系列取消了之前传闻的
来源: -
-
-
-
-
-
-
-
-
-
-
-
-
-
居然之家副总裁李杰:洞窝与天猫合作升级 6·18销售目标是同比增长20%以上 当前快报
DoNews5月10日消息,在2022年度业绩交流会上,居然之家董事兼副总裁李杰表示,今年618期间,居然之家、天猫
来源: -
-
-
财富更多》
-
证监会同意博盈特焊、赛维时代、信音电子、康力源、致尚科技、豪恩汽电IPO注册
证监会同意博盈特焊、赛维时代、信音电...
-
天天热资讯!华虹半导体5月17日上交所首发上会
华虹半导体5月17日上交所首发上会---中...
-
天天快播:通达股份拟定增募资不超过6.5亿元 2020年定增募6亿元
通达股份拟定增募资不超过6 5亿元2020...
-
制止餐饮浪费 武汉出妙招:设立自助餐厅反浪费管理员
制止餐饮浪费武汉出妙招:设立自助餐厅...
-
菜鸟受邀参加联合国环境署缔约方大会,分享绿色物流的中国经验_当前短讯
菜鸟受邀参加联合国环境署缔约方大会,...
动态更多》
热点
- realme10系列正式宣布 采用双曲面屏正面顶部居中挖孔
- 五菱全新微型电动车内饰官图发布 座椅采用星际形打孔工艺
- 努比亚Z40星空典藏版正式开售 采用微米级油画笔触纹理技术
- iQOO11系列正式官宣 首批搭载骁龙8Gen2机型之一
- 海信34英寸带鱼屏显示器发布 支持165Hz刷新率
- OPPO明年将商用240W超级闪充 新一代电芯支持更高倍率充电
- 第一款Android手机渲染图曝光 横向滑盖设计和全尺寸键盘
- 吉利首款纯电皮卡11月9日上市 车辆续航里程超过610公里
- 努比亚Z40SPro星空典藏版正式公布 堪称窄边框天花板
- vivo无线运动耳机2今日正式上市 首销只要119元
- 西部超导: 存货去化速度变慢与生产规模扩大和下游客户提货节奏有关|全球讯息
- 失业保险领取期间医保怎么办 需要自己缴费吗?|世界热头条
- 超频三:公司散热领域涉及的散热产品主要包括消费电子散热配件、LED照明散热组件等
- 房地产开发板块跌0.77% 深深房A涨10.04%居首 报道
- 每日快报!云南省投资促进局原局长段颖被公诉
- 亚马逊现正向受邀请的买家销售 Astro:一款人工智能驱动的家用机器人 焦点热闻
- 环球今日报丨安卓第一!天玑9200+跑分超136万:反超第二代骁龙8
- 环球最资讯丨融信中国提出境内债券整体展期方案:拟3年内分期兑付
- 【世界时快讯】齐芯半导体完成天使轮融资
- 苹果发布tvos16.5和homepod16.5版本更新中
- 环球聚焦:碳中和板块涨0.32% 元琛科技涨19.50%居首
- 鹏华基金朱睿:以周期成长思维 寻找最确定的投资机会
- 5月10日国内黄金期货涨0.46%
- 淘宝首次拍卖仓库搬空权 3分钟搬走的商品全部免费送上门|每日关注
- 【速看料】Prewave获得1800万欧元A+轮融资
- 天天实时:前海开源基金王旭巍离任5只债基
- 【天天热闻】朱晓彤卸任特斯拉石家庄公司法定代表人 仍任董事长
- 【新视野】魔兽世界夺走宝物坐标_魔兽世界夺走宝物
- 世界热门:好美好飒!浙江 24 岁女飞行员又刷屏
- 餐饮老板:说什么年轻化,要靠近年轻人?都只是在商言商罢了
- 敏感易泄、时间太短?山药配两味,中医延时脱敏绝招教会给你
- 北京市级财政将对光伏发电分级分类补贴!补贴标准—— 天天百事通
- 今日热议:招警:结构化面试中应注意的五个细节
- 世界动态:同心印记·组图丨锡溪村:一个令人向往的“诗和远方”
- 报道称AI公司出门问问最早年内赴港上市 最高融资3亿美元_观察
- 全球即时:2023上半年福建三明将乐县教育局关于做好中小学教师资格认定工作的通告
- 彼得希夫:美国解决不了债务问题,黄金将成唯一储备资产!
- 肇庆学院与一伽传媒直播基地携手,为学生提供更多实践机会_天天观热点
- 8fig获得1.4亿美元B轮融资
- 智能手表可以量血压了?这脑洞可以
- 工信部:谋划出台新一轮视听产业高质量发展接续政策 全球新要闻
- Faraday Future法拉第未来获得1亿美元战略投资 每日看点
- 厦门首场土拍收金101亿 两宗岛内地块吸引超百家房企参拍
- vivox90手机耗电太快怎么办?vivox90的备忘录在哪里?
- iPhone15Pro系列取消静音开关怎么关机?iphone15pro价格大概是多少?
- 小米手机充不进去电怎么办?小米手机充电发烫正常吗?
- 可再生能源发展实现良好开局:一季度新增装机量同比增长86.5%
- 100天,小鹏上下感受到了王凤英|天天热讯
- 王者荣耀吕布怎么闪现大招?王者荣耀吕布怎么玩才厉害?
- MIUI13隐私水印功能如何开启?miui13怎么隐藏应用?
- 小米10怎么设置抬手亮屏?小米10怎么看电池损耗程度?
- 快讯:飞天诚信(300386)5月10日主力资金净买入1097.78万元
- 原神塞西莉亚花怎么购买?原神塞西莉亚花在哪里买?
- OPPO手机怎么卸载自带软件?oppo手机的隐藏相册在哪里?
- iQOONeo5深色模式的深浅怎么调节?iqooneo5怎么看电池健康度?
- 天天新资讯:哈登季后赛生涯总得分超越张伯伦,NBA历史第20
- iQOONeo5如何设置定时勿打扰?iqooneo5的电池容量是多少?
- ColorOS13怎么安装未知应用?coloros13怎么看电池健康?
- 罕见!经历了实控人离婚、被诉侵权、招股书现笔误…即将上会!
- 真我GT2Pro震动强度在哪里调节?真我GT2Pro怎么添加门禁卡?
- 5月10日山东汇丰石化集团油品报价暂稳
- 一加10Pro一键锁屏在哪里设置?一加10pro什么时候上市?
- 热头条丨华友钴业年报及一季报业绩点评:历史最好的成绩单,新能源业绩有望逐步释放
- 三星fold2怎么分屏?三星fold2的负色功能在哪里?
- MIUI13如何隐藏小部件名称?miui13怎么隐藏应用?
- 【环球时快讯】挽女联
- 明日方舟剧作家怎么触发?明日方舟怎么解锁第二个助战?
- 明日之后血清专家怎么玩?明日之后血清怎么制作?
- MIUI13纯净模式如何关闭?miui13怎么添加桌面小组件?
- 小米12Pro来电秀在哪里开启?小米12pro耗电快怎么解决?
- 小米12Pro如何开启深色模式?小米12pro怎么无线充电?
- 有线耳机和蓝牙耳机相比较,哪种类型更适合听歌?
- 5月10日国内现货钴价汇总 重点聚焦
- 小米12Pro防误触如何开启?小米12PRO的变焦倍数是多少?
- 魅族16s怎么开启性能模式?魅族16s怎么开启90赫兹?
- 世界视讯!MIUI14新问题处理进展来了
- 美图上线“AI换装”功能 降低商家拍摄成本
- 格力删除孟羽童视频 孟羽童称靠别人永远不如靠自己
- 这就是三星下一代可折叠手机的充电速度_焦点报道
- 血源诅咒噩梦边境怎么去?血源诅咒是开放世界吗?
- 努比亚z20是什么处理器?努比亚z20怎么装谷歌?
- 云顶之弈源计划小小劫怎么获得?云顶之弈的恭喜发财在哪里?
- 赣锋锂业世荣兆业成立热能公司 注册资本5000万-观点
- 世界微动态丨新东方教学点擅自出版教材被罚
- vivoz5手机丢失怎么找回?vivoz5的高清语音怎么开?
- 古墓丽影是什么类型游戏?古墓丽影的卡片有什么用?
- 亚马逊为Prime会员提供10美元让其自行提货 全球简讯
- 【聚看点】培生集团将生成式 AI 嵌入其产品中以增强教学与学习
- 欧菲光股价累跌近八成17名高管携手增持 尚未走出苹果断链阴影一季亏3.58亿-每日热议
- 荣耀9x采用什么散热技术?荣耀9x的录屏功能在哪?
- 全球关注:盘点“特朗普性侵女作家”事件始末:被裁定赔偿500万美元,但仍可继续参加总统竞选
- 笔记本可以换显卡吗_不可以换显卡
- 魅族16s怎么查询激活时间?魅族16s怎么截长图?
- 第五人格芭风特随从怎么获得?第五人格的庄园叫什么名字?
- vivoz5手机耗电快怎么办?vivoz5的高清语音怎么开?
- iqooneo怎么更改锁屏密码?iQOOneo的屏幕刷新率多少?
- iqooneo玩游戏卡顿怎么办?iqooneo卡住了怎么办?
- iqooneo耗电快怎么办?iqooneo的电池容量是多少?
- 【新要闻】道县多措并举强化野生动物保护管理
- 努比亚z20怎么设置应用分身?努比亚z20怎么查激活时间?
- 努比亚z20有前置摄像头吗?努比亚z20的两个空间在哪?
- 今日热讯:茂芝场_关于茂芝场的简介
- 深圳时尚家居设计周SMART智家展5月即将开幕!高维展望智能家居新时代
- 艾尔登法环火焰巨人怎么打?艾尔登法环怎么开启二周目?
- 魅族16s怎么打开应用定位权限?魅族16s怎么查看电池健康度?
- 京东要给实体产业做个GPT
- 亮剑手游前期阵容怎么搭配?亮剑手游的限时商铺怎么玩?
- 明日之后稀有宝箱位置在哪?明日之后宝箱多久刷新一次?
- 塞尔达传说精灵马怎么驯服?塞尔达传说的大陆叫什么?
- 协鑫能科等在苏州成立新公司 注册资本2亿_环球短讯
- 苹果手机怎么设置黑色主题?苹果手机主题壁纸在哪里设置?
- iphone苹果手机太卡怎么办?苹果手机卡顿严重怎么解决?
- 环球看点!国家能源局:一季度可再生能源发展开局良好,装机规模持续扩大
- 国家林草局:以下一代互联网技术助力旗舰物种保护 环球头条
- 揭秘浪姐陈冰及其父母商业版图 浪姐陈冰商业版图|全球热议
- 暗区突围谷物办公室在哪里?暗区突围的身份牌有什么用?
- 华设集团5月10日盘中跌幅达5%
- 努比亚z20支持游戏画中画吗?努比亚z20屏幕是三星的吗?
- 合金弹头觉醒火箭筒怎么玩?合金弹头觉醒可以组队吗?
- 努比亚z20支持DC调光吗?努比亚z20怎么关闭副屏?
- 消逝的光芒枪伤害怎么提升?消逝的光芒怎么扔爆竹?
- 全球观速讯丨健康科学领域新品牌Revvity发布,专注于提供端到端专业知识和解决方案
- 生化危机4重制版怎么闪避?生化危机4重制版的剧情怎么样?
- 努比亚z20有护眼模式吗?努比亚z20的两个空间在哪?
- vivoy91怎么打开智慧识屏?vivoY91怎么扩大空间?
- 奉贤“毛毛虫”桑葚新鲜上市,市民采摘欢乐多~-观天下
- 武侠故事A(关于武侠故事A介绍) 精选
- 香港洪水桥/厦村11幅土地申放宽地积比率 其中建公屋24,267伙
- “17渝信02“持有人会议通过同方国信重大资产转让事项议案
- 天天动态:兰州市中医医院发热门诊和PCR相关试剂耗材采购项目成交公告
- 环球速读:汽车国六b排放标准7月起实施 中汽协:行业企业需尽快完成产品切换和销售
- 京东APP大升级!12.0上线:应简尽简 营销和弹窗少了
- 跃客网络收购云来游戏 跃客网络全资入股云来游戏
- 环球微头条丨比亚迪再全资入股一汽车租赁公司
- 标王!衡钢获中石油非API大单