document.write('
')
数字化观察网 - 信息化观察网 - 引领行业改革
菜单导航

人大高瓴人工智能学院 Nature 子刊:尝试利用多

作者: 数字化观察网 发布时间: 2022年06月23日 09:49:27

最近,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然 · 通讯》(英文名:Nature Communications,简称 Nat Commun)上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文,文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能,并将对各种 AI + 领域(如神经科学和医疗健康)产生广泛的影响。本文是这篇论文的解读。

人大高瓴人工智能学院 Nature 子刊:尝试利用多

论文链接:https://www.nature.com/articles/s41467-022-30761-2

代码链接:https://github.com/neilfei/brivl-nmi

人工智能的基本目标是模仿人类的核心认知活动,如感知、记忆、推理等。虽然许多人工智能算法或模型在各个研究领域都取得了巨大的成功,但是受限于大量标注数据的获取或是没有足够的计算资源支撑在大规模数据上的训练,大多数的人工智能研究还是只局限于单个认知能力的习得。

为了克服这些局限并向通用人工智能迈出一步,我们以人类大脑处理多模态信息为灵感(如图 1a),开发了一个多模态(视觉语言)基础模型,也即预训练模型。此外,为了让模型获得强大的泛化能力,我们提出训练数据中的图片与文本应遵循弱语义相关假设(如图 1b),而不是图片区域与单词的精细匹配(强语义相关),因为强语义相关假设将导致模型丢失人们在为图片配文时暗含的复杂情感和思考。

人大高瓴人工智能学院 Nature 子刊:尝试利用多

图 1:基于弱语义相关假设的 BriVL 模型。a. 我们的 BriVL 模型和人脑在处理视觉语言信息上的对比。b. 建模弱语义相关数据和建模强语义相关数据的对比。

通过在爬取自互联网的大规模图文对数据上进行训练,我们得到的多模态基础模型展现出强大的泛化能力和想象能力。我们相信,我们的工作向通用人工智能迈出了重要的一步(虽然可能很小),并将对各种 AI + 领域(如神经科学和医疗健康)产生广泛的影响。

方法

我们开发了一个大规模多模态基础模型在海量的多模态数据上进行自监督训练,并把它取名为 BriVL(Bridging-Vision-and-Language)。

首先,我们使用了一个从互联网构建的大规模多源图文数据集,称为弱语义相关数据集(WSCD)。WSCD 收集了来自网络上多个来源的中文图像文本对,包括新闻、百科和社交媒体。我们只过滤掉了 WSCD 中的色情和敏感数据,没有对原始数据进行任何形式的编辑和修改,以保持其自然的数据分布。总的来说,WSCD 有大约 6.5 亿个图文对,覆盖了许多主题,如体育、日常生活和电影。

其次,对于我们的网络架构,由于图像和文本之间不一定存在细粒度的区域单词匹配,我们丢掉了耗时的目标检测器,采用简单的双塔架构,因此能够通过两个独立的编码器对图像和文本输入进行编码(如图 2)。双塔结构在推理过程中具有明显的效率优势,因为候选集的特征可以在查询前计算和索引,满足现实世界应用的实时要求。第三,随着大规模分布式训练技术和自监督学习的发展,用海量的未标注的多模态数据训练模型成为可能。

具体来说,为了对图文对的弱相关性进行建模,并学习一个统一的语义空间,我们基于单模态对比学习方法 MoCo 设计了一个跨模态对比学习算法。如图 2 所示,我们的 BriVL 模型使用了 momentum 机制,用来在不同的训练批次中动态维护负样本队列。通过这种方式,我们会有一个比较大的负样本数量(对对比学习至关重要),同时使用一个相对较小的 batch 大小以减少 GPU 的内存占用(即 GPU 资源节约)。

人大高瓴人工智能学院 Nature 子刊:尝试利用多

图 2:用于大规模多模态预训练的 BriVL 模型示意图。

主要结果

神经网络可视化

当我们听到文字或描述性的句子时,脑海中就会出现一些场景。那对于我们的 BriVL,它在如此大量的弱相关图文对上进行预训练以后,我们就很好奇当给出文本时,它会想象到什么。

具体来说,我们首先输入一段文本,通过 BriVL 的文本编码器获得其文本嵌入。然后我们随机初始化一个噪声图像,并通过图像编码器得到其特征嵌入。由于输入的图像是随机初始化的,它的特征与输入文本的特征必定不一致。因此,我们定义了匹配两个特征嵌入的目标,并通过反向传播来更新输入图像。最终得到的图像便能清楚地展示 BriVL 对输入文本的想象。这里我们不使用任何额外的模块或数据,预训练好的 BriVL 也在整个可视化过程中被冻结。

热门标签