“文澜BriVL”模型设计者、人大教授卢志武:多模态大模型,我国弯道超车的可能性很大 | 36氪专访

来源:东方资讯

采访 | 周鑫雨、苏建勋、杨轩


【资料图】

文 | 周鑫雨

编辑 | 苏建勋

想过河,但连一块石头都摸不着。这是2020年卢志武和中国人民大学高瓴人工智能学院团队自研多模态大模型时遇到的困境。

彼时,GPT-3已经发布,国内NLP(自然语言处理)领域的研究已逐渐形成规模。但将涉及领域从文字扩展到图像、视频的多模态大模型,依然几近“无人区”。

在一年多的时间里,团队做了许多“前无古人”的尝试。比如在2021年初,率先采用微软新推出的Deep Speed框架来支持几十亿参数模型的训练。在资源稀缺的情况下,“巧劲”也是必须的——为了减少显存占用,团队尝试性地采用了ViT(VisionTransformer)架构,还在自监督训练中采取了较小的Batch(分批处理)而不降低效果。

2021年3月,团队的无人区探索有了初步的成果:多模态大模型“文澜BriVL 1.0(Bridging-Vision-and-Language 1.0)”,后续还发布了 “文澜BriVL 2.0”。两年后,2023年3月8日,卢志武团队借鉴文澜的研究经验,自主研发了多模态对话大模型,并落地了第一款应用级多模态ChatGPT产品: “元乘象 ChatImg”。

“元乘象 ChatImg”好比是“会看图的ChatGPT”。据卢志武介绍,基于多模态融合模块和语言解码器,目前Chatlmg参数规模大概为150亿。用户输入一张图片,Chatlmg就能对其中的内容进行解读,并继续相关的对话。

元乘象 ChatImg图文交互演示。

从艰难穿越无人区到落地应用,卢志武认为,中国AI模型研究者不仅要精于技术,也要敢于拥抱新技术。同时,学者们也要认识到,从研究走向落地,仍需要跨过一些鸿沟。

以下是36氪和卢志武的对话:

穿越无人区

36氪:您为什么在3月8日这个时间点推出多模态大模型产品ChatImg?

标签:

推荐

财富更多》

动态更多》

热点