Meta大动作！开源多感官AI模型，不仅能看会听，还能“感知温度”|世界新资讯

2023-05-10 20:08:51 来源：市场资讯

Meta大动作！开源多感官AI模型，不仅能看会听，还能“感知温度”

(资料图片仅供参考)

来源：华尔街见闻葛佳明

Meta带着ImageBind再次冲进AI战场，当AI拥有了多种感官，且学会“脑补”，Meta的元宇宙梦还远吗？

前段时间，带着开源模型LlaMA“杀的”谷歌和微软“措手不及”的Meta，又一次在AI战场上丢下了一颗重磅炸弹。

今天，Meta重磅开源了多感官AI模型ImageBind。以视觉为核心，结合文本、声音、深度、热量（红外辐射）、运动（惯性传感器），最终可以做到6个模态之间任意的理解和转换。

这也是第一个能够整合六种类型数据的AI模型。

如何让AI以更接近人类的方式理解这个世界？——也让AI拥有多种感官，学会“脑补”。

一张大海的照片可以让我们的脑海里响起海浪的声音，回忆起海边腥咸的味道。当我们听到瀑布声，脑海里便会浮现恢弘的瀑布奇观。

Video Player is loading．

Play Video

Play

Loaded： 0%

Current Time0：00

Duration0：00

Mute

Fullscreen

This is a modal window．

No compatible source was found for this media．

Beginning of dialog window． Escape will cancel and close the window．

Text

Color

White

Black

Red

Green

Blue

Yellow

Magenta

Cyan

Transparency

Opaque

Semi-Transparent

Background

Color

Black

White

Red

Green

Blue

Yellow

Magenta

Cyan

Transparency

Opaque

Semi-Transparent

Transparent

Window

Color

Black

White

Red

Green

Blue

Yellow

Magenta

Cyan

Transparency

Transparent

Semi-Transparent

Opaque

Font Size

50%

75%

100%

125%

150%

175%

200%

300%

400%

Text Edge Style

None

Raised

Depressed

Uniform

Dropshadow

Font Family

Proportional Sans-Serif

Monospace Sans-Serif

Proportional Serif

Monospace Serif

Casual

Script

Small Caps

Reset restore all settings to the default valuesDone

Close Modal Dialog

End of dialog window．

Meta指出，未来还将有其他可以被添加到模型中的感官输入流，包括“

触摸、讲话、气味和大脑fMRI（功能性磁共振成像）信号”。

与此同时，ImageBind还可以进行跨模态检索，如火车喇叭音频，文本、深度、图片和视频。

尽管目前ImageBind只是一个研究项目，但它展示了未来人工智能生成多感官感知的可能性，或许也使Meta的元宇宙梦更近了。

Meta在论文中解释称，他们把不同模态数据串联在了一个嵌入空间（Embedding Space），让其从多维度理解世界。

有网友评价道，imageBind的出现使AI发展过程中又迎来了激动人心的时刻：

有网友评论称，ImageBind的诞生就是为了模拟人类感知。ImageBind面世，贾维斯也不远了。

英伟达科学家Jim Fan点评道：自LLaMA以来，Meta就在开源领域大放异彩。

不过，对于Meta开源大模型的做法，也有人提出了质疑。如OpenAI便表示，这种做法对创作者有害，竞争对手可以随意复制且可能具有潜在的危险，允许恶意行为者利用最先进的人工智能模型。

更接近人类感知的元宇宙？

相比Midjourney、Stable Diffusion和DALL-E 2这样简单的将文字与图像配对的生成器，ImageBind试图让AI更接近人类的思考和感知方式：

这个模型利用到了图像的绑定（binding）属性，只要将每个模态的嵌入与图像嵌入对齐，就会实现所有模态的迅速对齐。

简单来说就是图像成为了连接这些模态的桥梁。

例如Meta利用网络数据将文本与图像连接起来，或者利用带有IMU传感器的可穿戴相机捕捉到的视频数据将运动与视频连接起来。

Meta在论文中指出，ImageBind的图像配对数据足以将这六种模态绑定在一起。

模型可以更全面地解释内容，使不同的模态相互“对话”，并找到它们之间的联系。

例如，ImageBind可以在没有一起观察音频和文本的情况下将二者联系起来。这使得其他模型能够“理解”新的模态，而不需要任何资源密集型的训练。

具体而言，ImageBind利用网络规模（图像、文本）匹配数据，并将其与自然存在的配对数据（视频、音频、图像、深度）相结合，以学习单个联合嵌入空间。

这样做使得ImageBind隐式地将文本嵌入与其他模态（如音频、深度等）对齐，从而在没有显式语义或文本配对的情况下，能在这些模态上实现零样本识别功能。

与此同时，Meta表示，ImageBind可以使用大规模视觉语言模型（如 CLIP）进行初始化，从而利用这些模型的丰富图像和文本表示。因此，ImageBind只需要很少的训练就可以应用于各种不同模态和任务。

如果与其他AI结合，还可以做到跨模态的生成。

比如听到狗叫画出一只狗，同时给出对应的深度图和文字描述。

甚至还做到不同模态之间的运算，如鸟的图像+海浪的声音，得到鸟在海边的图像。

对此，Meta在其官方博客中也说道，“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是，它能更好地一起分析许多不同形式的信息，从而推进人工智能的发展。”

Meta团队认为，ImageBind为设计和体验身临其境的虚拟世界打开了大门。或许也让Meta离幻想中的元宇宙世界更近了一步。

可以怎么搜？

模型具体可以怎么用？Meta开放了模型演示，具体包括：

使用图像检索音频

以图像或视频作为输入，可以生成音频。比如选择一张小狗的图片，就能够检索到狗吠的音频。

使用音频检索图像

通过一个音频片段，给出一张对应的图。听着鸟鸣，小鸟的图片便出现了。

使用文本来检索图像和音频

选择下面的一个文本提示，ImageBind将检索与该特定文本相关的一系列图像和音频片段。

使用音频+图像来检索相关图像

给一段狗叫声再加一张海滩的图片。ImageBind可以在几分钟内检索出相关图像。

得到了一张“狗望海”的图：

使用音频来生成图像

要想实现音频生图像，ImageBind需要和其他模型一起结合用，比如 DALL-E 2等生成模型。

来个下雨哗啦啦的声音，身在其中的意境图就来了。

ImageBind的性能有多卓越？——打败专家模型

在Meta研究科学家于近期发布的题为《IMAGEBIND：一个嵌入空间绑定所有模态》的论文中指出，ImageBind模型的第一大优势在于，仅通过很少的样本及训练，模型性能便可提高：

Meta的研究表明，视觉模型越强，ImageBind对齐不同模态的能力就越强。

在实验中，研究人员使用了 ImageBind 的音频和深度编码器，并将其与之前在zero-shot检索以及音频和深度分类任务中的工作进行了比较。

结果显示，ImageBind可以用于少量样本的音频和深度分类任务，并且优于之前定制的方法。

而以图像/视频为中心训练好AI后，对于原始数据中没有直接联系的模态，比如语音和热量，ImageBind表现出涌现能力，把他们自发联系起来。

在定量测试中，研究人员发现，ImageBind的特征可以用于少样本音频和深度分类任务，并且可以胜过专门针对这些模态的先前方法。

在基准测试上，ImageBind 音频和深度方面优于专家模型

比方说，ImageBind在少于四个样本分类的top-1准确率上，要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。

Meta希望，AI开发者社区能够探索ImageBind，来开发其可以应用的新途径。

Meta认为，关于多模态学习仍有很多需要探索的地方。ImageBind这项技术最终会超越目前的六种“感官”，其在博客上说道，“虽然我们在当前的研究中探索了六种模式，但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

炒股开户享福利，送投顾服务60天体验权，一对一指导服务！

标签：