早报 | ImageBind：跨模态之王，6种模态全部绑定！焦点热讯

2023-05-19 09:55:56 来源：第一电动

当地时间5月9日，Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind，包括视觉（图像和视频形式）、温度（红外图像）、文本、音频、深度信息、运动读数（由惯性测量单元或IMU产生）。目前，相关源代码已托管至GitHub。

何为横跨6种模态？

(相关资料图)

即以视觉为核心，ImageBind可做到6个模态之间任意的理解和转换。Meta展示了一些案例，如听到狗叫画出一只狗，同时给出对应的深度图和文字描述；如输入鸟的图像+海浪的声音，得到鸟在海边的图像。

相比 Midjourney、Stable Diffusion 和 DALL-E 2 这样将文字与图像配对的图像生成器，ImageBind 更像是广撒网，可以连接文本、图像/视频、音频、3D 测量（深度）、温度数据（热）和运动数据（来自 IMU），而且它无需先针对每一种可能性进行训练，直接预测数据之间的联系，类似于人类感知或者想象环境的方式。

研究者表示 ImageBind 可以使用大规模视觉语言模型（如 CLIP）进行初始化，从而利用这些模型的丰富图像和文本表示。因此，ImageBind 只需要很少的训练就可以应用于各种不同的模态和任务。

ImageBind 是 Meta 致力于创建多模态 AI 系统的一部分，从而实现从所有相关类型数据中学习。随着模态数量的增加，ImageBind 为研究人员打开了尝试开发全新整体性系统的闸门，例如结合 3D 和 IMU 传感器来设计或体验身临其境的虚拟世界。此外它还可以提供一种探索记忆的丰富方式，即组合使用文本、视频和图像来搜索图像、视频、音频文件或文本信息。

该模型目前只是一个研究项目，没有直接的消费者和实际应用，但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式，也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式，趟出一条属于开源大模型的路。

最终，Meta 认为ImageBind 这项技术最终会超越目前的六种“感官”，其在博客上说道，“虽然我们在当前的研究中探索了六种模式，但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”

ImageBind的用途

如果说 ChatGPT 可以充当搜索引擎、问答社区，Midjourney 可以被用来当画画工具，那么用 ImageBind 可以做什么？

根据官方发布的 Demo 显示，它可以直接用图片生成音频：

也可以音频生成图片：

亦或者直接给一个文本，就可以检索相关的图片或者音频内容：

也可以给出音频，生成相应的图像：

正如上文所述， ImageBind 给出了未来生成式 AI 系统可以以多模态呈现的方式，同时，结合 Meta 内部的虚拟现实、混合现实和元宇宙等技术和场景结合。用 ImageBind 这样的工具会在无障碍空间打开新的大门，譬如，生成实时多媒体描述来帮助有视力或听力障碍的人更好地感知他们的直接环境。

关于多模态学习还有很多待发掘的内容。人工智能研究界尚未有效地量化只出现在较大模型中的扩展行为并理解其应用。ImageBind是朝着以严格的方式评估它们并展示在图像生成和检索方面的新应用的一步。

关键词：

早报 | ImageBind：跨模态之王，6种模态全部绑定！焦点热讯

相关阅读

早报 | ImageBind：跨模态之王，6种模...

钢板桩支护多少钱一米？钢板桩倾斜原因...

钢材市场价格多少钱一吨？钢板桩单边支...

天天日报丨宏微科技：5月18日融资买入87...

阿里巴巴什么时候在美国上市？阿里巴巴...

每日速讯：百倍提效，火箭回收从“找”...

备份星“入列”，“北斗”再出发_天天微...

世界快资讯丨焦炭开启第八轮提降部分...

环球聚焦：新活力新气象，中国旅游市场...

空、天、地协同，为农场黑土地做“体检”

增容改造添动力，清洁能源产业“加速跑”

4.6亿年前的“海绵宝宝”重见天日_焦点日报

环球今日报丨国家能源集团研讨数字化生...

微波和光学光子首次实现纠缠

“硬核”智能科技成果闪亮登场|天天速递

全球关注：多地用电量整体回升经济发...

业界：提升综合金融服务能力推动大湾...

观速讯丨金融支持新能源汽车下乡需重视...

电子承兑汇票与纸质承兑汇票有什么区别...

电子承兑最晚签收时间是什么时候？电子...

热点文章

早报 | ImageBind：跨模态之王，6种模态全部绑定！ 焦点热讯

相关阅读

热点文章

推荐文章

早报 | ImageBind：跨模态之王，6种模态全部绑定！焦点热讯