中国最强AI研究院的大模型为何迟到了
出品|虎嗅科技组
作者|齐健
(资料图)
编辑|陈伊凡
头图|FlagStudio
“OpenAI会再开源大模型吗?”
当智源研究院理事长张宏江向线上参加2023年智源大会的OpenAI首席执行官Sam Altman问及开源问题时,Sam Altman微笑表示,OpenAI未来会开放更多代码,但没有具体的开源时间表。
这样的讨论来自这次智源大会的话题之一——开源大模型。
6月9日,2023年智源大会在北京举行,座无虚席。在大会现场,“算力”、“大模型”“生态”等与AI相关的词时不时出现在参会者的聊天中,还有这个产业链上的各家公司。
本次大会上,智源研究院发布了全面开源的悟道3.0。包括视觉大模型系列“视界”,语言大模型系列“天鹰”,以及独创的大模型评测体系“天秤”。
大模型开源,就意味着公开模型代码,供AI开发者研究。悟道3.0中的“天鹰”基础层语言模型还是一款可商用的模型,每个人都可以免费使用这款大模型。
“目前,国际上有三家机构在AI领域处在前沿地位,微软的深度合作伙伴OpenAI,谷歌,以及BAAI。”微软总裁Brad Smith在不久前的一次采访中,曾提到一家与OpenAI、谷歌齐名的中国“最强”AI研究机构BAAI,这家机构就是北京智源人工智能研究院。这样一家研究院举办的人工智能大会,被众多业内人士视为行业的风向标。
被微软总裁高度认可的智源研究院,早在2020年10月已启动了AI大模型“悟道”项目,并先后发布了悟道大模型1.0和2.0两个版本。其中悟道2.0官方公布的参数规模达到1.7万亿。彼时,OpenAI公布1750亿参数的GPT-3模型也才一年时间。
不过,就是这样一个AI大模型的先行者,在最近半年的AI大模型热潮中,却异常低调。
当大厂和创业公司中,大模型层出不穷时,智源在过去三个多月里,对外一直保持“静默”状态,除了4月上旬与Meta的抠图AI“SAM”撞车的“SegGPT”,几乎没有向公众透露任何有关AI大模型的信息。
对此,AI行业内外的很多人都有疑问,在AI大模型领域领先的智源研究院,为什么在大模型的高潮时刻似乎来迟了?
开源模型要拆了OpenAI的护城河吗?
“虽然现在的大模型竞争火热,但无论是OpenAI还是谷歌,都没有护城河,因为‘开源’正在AI大模型领域崛起。”
在一份谷歌泄露的文件中,谷歌内部研究人员认为,开源模型或将引领大模型发展的未来,这份文件中提到“开源模型的迭代速度更快,可定制性更强,更有私密性,而当免费的、不受限制的替代品质量相当时,人们不会为受限制的模型付费。”这或许也是智源选择开发开源大模型的原因之一。
目前,开源的商用大模型并不多,智源研究院对目前已发布的部分AI大模型进行了一个调查,在国外发布的39个开源语言大模型中,可商用的大模型有16个。国内已发布的28个大语言模型中,开源模型有11个,其中开源可商用的模型仅有1个。
智源此次发布的大语言模型是开源且可商用的模型,也是目前为数不多的可商用开源大语言模型之一,这也决定了这样的模型在发布之前需要更加谨慎。
“就智源来说,肯定不希望开源模型太难看,所以会谨慎发布。”智源大会现场的一位AI研究员表示,开源模型难免要被反复验证,被大量开发者挑bug,为了保证开源模型的质量,智源的研发进度可能被“开源”拖慢了一些。
智源研究院院长黄铁军认为,目前我国市场上大模型的开源开放力度远远不够,“我们应该进一步加强开源开放。开源开放也是竞争,真有水平、真有好算法,拿出来评测、去比,才能证明技术水平。”
目前国内的大模型技术透明度不高,不少国内厂商在大模型发布之初,都曾被质疑模型是否自研。有人说他们是API调用ChatGPT,也有人说他们用Meta泄露的LLaMA模型+ChatGPT的答案数据训练而来,开源模型则从源头上断绝了这些质疑。
不过,开源模型,提高技术透明度并不是为了自证清白,而是真的要“集中力量办大事”。据智源数据显示,天鹰大语言模型每天的训练成本在10万元以上,而在国内“百模大战”甚至“千模大战”的大势下,很多行业中都在进行大量不必要的重复训练,导致的重复开支可能是个天文数字。
而开源模型可以减少重复训练,对于有模型需求的企业来说,直接利用开源可商用的AI大模型,结合自身数据进行训练,或许是AI落地和行业应用的最优解。
开源的另一方面考虑,在于前期积累用户和开发者,以便构建良好生态,并实现未来的商业化。一位国内大模型公司创始人告诉虎嗅,“OpenAI的GPT-1和GPT-2都是开源的大模型,这是为了积累用户,提高模型的认可度。等到GPT-3的模型能力涌现出来,就会开始考虑商业化,模型也会逐渐走向封闭。因此,开源模型一般不会允许商用,这也是出于后续商业化的考虑。”
但显然,智源作为非营利的研究机构,在开源问题上,并没有商业化的考虑。对于智源而言,在模型开源方面,一方面是希望通过对底层模型等开源开放,促进AI大模型行业的科研创新,加速产业落地。另一方面,或许也是想要基于开源模型积累更多的用户反馈,提升大模型在工程上的可用性。
不过,模型开源也并非“完美”。
一位大厂AI技术总监告诉虎嗅,目前的AI大模型的商业化市场可以分为三层,第一层是完全具备自研模型能力的头部大玩家,第二层是需要根据特定场景训练专有模型的企业,第三层则是只需要通用模型能力,使用API接口调用即可满足需求的中小客户。
在这个背景下,开源模型对于有自研能力的头部玩家来说,可以帮助他们省去了大量研发模型的时间和成本。但对于第二层和第三层企业来说,则需要他们自己组建技术团队去对模型进行训练和调优,而这对于很多技术实力不那么雄厚的企业来说,反而把落地流程变得更加复杂了,开源对他们来说似乎有一些“免费的东西最贵”的感觉。
此“悟道”已非彼“悟道”
智源的悟道3.0,是一套完全重新开发的大模型系列,这也是其“迟发”的原因之一。
既然已经有了悟道2.0的基础,智源为什么要重新开发一套模型体系?一方面是模型的技术方向调整,另一方面则是由于模型底层训练数据的“换血”。
“悟道2.0的研发是在2021年,所以无论是语言模型(如GLM)还是文生图模型(如CogView),其所基于的算法架构从现在来看是比较早的。在过去一年多,相关领域的模型架构已经有了更多的验证、或演进。例如,语言模型中采用decoder only的架构,已经证实,加以更高质量的数据,可以在大规模参数的基础模型中,获得更好的生成性能。在文生图模型中,我们改用了基于difussion来进行进一步的创新。所以在悟道3.0中,我们对语言大模型、文图生成大模型等都采用了这些更新的架构来重新开发。”在智源研究院副院长兼总工程师林咏华表示,基于过去模型的研究,悟道3.0在很多方向进行了重构。
另外,悟道3.0还对底层模型的训练数据进行了全面优化升级,训练数据中使用了更新的悟道中文数据,包括2021年到现在的,并进行了更严格的质量清洗;另一方面,增加了大量的高质量中文,包括中文书籍、文献等;此外还增加了高质量的代码数据集等,因此基础模型也发生了很大的改变。
在此之前,很多国内模型对中文理解能力不行的问题,就源自底层模型训练的数据不是原生中文。国外的AI大模型,以及部分国内模型都采用了大量国外开源数据进行训练。其中主要的来源包括著名的开源数据集Common Crawl。
智源对100万条Common Crawl网页数据进行分析,可以提取出中文的网页有39052个。从站源角度来看,可以提取出中文的网站共有25842个,其中IP在中国内地的,只有4522个,占比仅为17%。这样不仅中文数据的准确性大打折扣,安全性也很低。
“训练基础模型的语料很大程度会影响AIGC应用、微调后的模型等内容生成的合规、安全和价值观。”林咏华表示,天鹰基础模型的中文能力不是简单的翻译,而是把足够多中文的知识“压到这个模型里”,它的中文互联网数据99%来自国内网站,企业可以放心地基于它做持续训练。
同时,通过大量对数据、数字的精细化处理和清洗,达到用少的数据量来训练出一样性能甚至性能更好的模型,这个数据甚至低到30%、40%的数据量就能赶上或者超过现有的开源模型了。
如今看来,这条路径对于智源来说,也许是个更优解。因为在训练数据方面,智源与互联网厂商相比存在短板。互联网大厂不仅拥有大量来自用户侧的交互数据,还拥有很多可用于训练的版权数据。就在不久前,阿里达摩院刚刚发布来一款视频语言数据集Youku-mPLUG,其中的所有内容均来自阿里旗下的视频平台优酷。
由于智源没有深厚的用户基础,所以在训练数据方面,只能通过与版权方协商获得授权,并通过一些公益数据项目一点点采集积累。
但是,目前智源的中文数据集还只能做到部分开源,其主要原因是,中文数据的版权分散在各个机构手中,目前智源的训练数据是在多方协调下,获得的针对开源模型研究开放的使用权限。大部分数据只能应用到智源的模型中,而没有开放二次使用的权利。
“国内很有必要建立针对数据集的产业联盟,把版权所有方联合在一起,对人工智能方面的训练数据进行统一规划,但这需要顶层设计的智慧。”林咏华告诉虎嗅。
国内大模型行业的黄埔军校
悟道3.0正在讲一个与悟道2.0不同的故事,研发团队的变化是其中之一。作为AI大模型行业的先驱,智源研究院就像是国内AI大模型的黄埔军校。上到智源学者,下至基层工程师,在今天的大模型热潮中,都成了行业里的香饽饽,智源的原始团队中,也孵化了几个大模型的创业团队。
在悟道3.0之前,一个大模型系列是由多个外部实验室联合发布的研究成果的组合,而这次的悟道3.0是由智源团队完全自研的系列模型。
2021年发布的悟道2.0模型,其中包括:文源、文澜、文汇、文溯。其中,两个核心模型分别由清华的两个实验室主力完成。而如今这两个团队都已成立了自己的创业公司,并沿着CPM和GLM的研发路径形成了自己的独立产品。
其中,GLM的主力研发团队清华大学知识工程研究室(KEG),就与智谱AI一同推出了开源模型ChatGLM-6B,并得到了业界的广泛认可;CPM的主力研发团队,清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)中的部分成员组成的深言科技,成立一年就受到了各家资本的青睐,今年的两轮融资中分别出现了腾讯投资、红杉中国、奇绩创坛等基金的身影。
有接近智源研究院的人士告诉虎嗅,自从国内AI大模型升温以来,智源团队成为了人才大战的“围猎目标”,“整个研发团队都被其他公司或猎头盯上”。
当下国内AI大模型行业,最不缺的是钱,最缺的就是人。在猎聘、脉脉、BOSS直聘三个平台搜索ChatGPT,硕博学历职位的月薪普遍高于3万,最高达9万。“在薪酬方面IT大厂并不会占多少便宜,AI大模型的研发都是高举高打,创业公司给出的薪酬可能更有竞争力。”西湖心辰COO俞佳对虎嗅表示,人才大战在AI行业里将会越来越激烈。
“薪酬double,在智源的很多员工看来根本就没有竞争力。因为现在都是拿着五倍甚至十倍工资来挖人。即使你再有理想,对未来再有规划,也很难顶住过百万年薪的诱惑。”一位接近智源的人士告诉虎嗅,由于智源是一家非营利研究机构,薪酬水平很难与互联网大厂或者是背后有大量资本支持的创业公司相比。
虎嗅从猎头处了解到NLP(自然语言识别)研究专家的年薪目前起步都会超过100万。对于一些工作年限长,工资不高的员工来说,面对几倍的薪水很难不动摇。
不过,从目前智源的公开数据来看,智源研究院的各个核心项目团队带头人,多数还在全职负责智源研究院的研发项目。
“悟道3.0的模型全部是智源自己的研究人员开发的,包括天鹰、天秤,以及视界。”林咏华表示,智源研究院目前的研发实力在行业中一直是顶尖的。
正在改变与想要改变世界的人,都在虎嗅APP返回搜狐,查看更多
责任编辑:
标签:
推荐
财富更多》
-
从首届的1个增长为如今的64个——分会场展现文化产业累累硕果|环球快报
从首届的1个增长为如今的64个——分会场...
-
国联证券拟将定增募资额上限从70亿元下调至50亿元 世界热资讯
国联证券拟将定增募资额上限从70亿元下...
-
中央气象台发布黄色预警 多地冰雹、雷暴大风、短时强降水来袭
中央气象台发布黄色预警多地冰雹、雷暴...
-
“链主”赋能产业创新 梯度培育制造业单项冠军
“链主”赋能产业创新梯度培育制造业单...
-
证监会:基金投顾业务服务应满足居民多样化养老需要 世界最资讯
证监会:基金投顾业务服务应满足居民多...
动态更多》
热点
- realme10系列正式宣布 采用双曲面屏正面顶部居中挖孔
- 五菱全新微型电动车内饰官图发布 座椅采用星际形打孔工艺
- 努比亚Z40星空典藏版正式开售 采用微米级油画笔触纹理技术
- iQOO11系列正式官宣 首批搭载骁龙8Gen2机型之一
- 海信34英寸带鱼屏显示器发布 支持165Hz刷新率
- OPPO明年将商用240W超级闪充 新一代电芯支持更高倍率充电
- 第一款Android手机渲染图曝光 横向滑盖设计和全尺寸键盘
- 吉利首款纯电皮卡11月9日上市 车辆续航里程超过610公里
- 努比亚Z40SPro星空典藏版正式公布 堪称窄边框天花板
- vivo无线运动耳机2今日正式上市 首销只要119元
- 在家乡的热土上培育梦想
- 全球头条:华南等地部分地区将有大到暴雨 黄淮江汉等地有高温天气
- 1英镑等于多少人民币(1法郎等于多少人民币)
- 湖北移动宽带移机怎么办理(移动宽带移机怎么办理)
- 美国旧金山毒品泛滥、暴力犯罪猖獗 市民称正在目睹西方文明崩溃
- 国内物价运行总体平稳——解读5月份CPI和PPI数据 重点聚焦
- 醉汉倒地,交警出手相助!临别前,4岁幼儿做出超萌举动!
- 蛹没移动能力,很容易被天敌吃掉,为何昆虫还进化出蛹这种形态呢
- 【当前独家】巴基斯坦西北部强降雨已致至少25人死亡
- 天天动态:AI前哨 | GPT-5什么时间上线?OpenAI CEO在中国会议上发言
- 华为获转让问界商标:可用于汽车等
- 专家企业家齐聚哈尔滨 共谋人工智能引领龙江数字经济发展
- 环球通讯!夏季饮食要注意ppt_夏季饮食
- 处处留心皆学问啥意思(处处留心皆学问下一句)
- 教育部印发《意见》 加强中小学地方课程和校本课程建设与管理-天天讯息
- 环球报道:牛肉饼的家常做法_牛肉的家常做法
- 欧阳青反串视频全集_欧阳青
- 天天速递!中国廉洁文化史简介(中国廉政)
- 天天消息!首都经济与贸易大学本科招生网(首都财经贸易大学)
- 视讯!好玩好看,上海国际电影节首次推出“数字影视体验展”
- 广州番禺警方通报“一男子在女厕门口偷拍”
- 北京人遗址传说(北京人遗址)
- 设计师资格证查询网站(设计师资格证)
- 全球快播:液化石油气瓶属于什么瓶(家用瓶装液化石油气主要成分是)
- 热讯:夏季曼妙长裙,微风拂过,感觉特别美丽
- 世界热文:全城寻找“广州十大科学传播达人”,是你吗?
- 热带雨林迁移农业是什么意思(热带雨林迁移农业) 当前焦点
- 是喝高度还是低度?一位酿酒师告诉你,两者白酒的区别_每日快讯
- “这堂电影体验课超乎想象!”近300名广东学子在文博会拥抱光影新科技 焦点信息
- 焦点日报:洋槐树枝熬水有什么功效(洋槐树)
- 环球资讯:刘奕君:逆反大叔的坚韧
- 聚焦深圳文博会 | 中外游客在云南展区体验“有一种叫云南的生活”|焦点精选
- 观察:莫扎特的一句话(关于莫扎特的话例如说他天真)
- 世界热讯:国有大行今起下调存款利率!贷款利率下降有了空间
- 焦点热文:第34届中国经济新闻奖:21世纪经济报道获评论一等奖、融合报道一等奖
- 乌海京东到家代运营公司_提供专业的代运营服务-全球新视野
- 大众拟采用电池制造新工艺降低电动汽车成本
- 今日热搜:一汽幸福使者图片_一汽幸福使者
- 广汇汽车与工行江西省分行签署战略合作协议|环球报资讯
- 天天微头条丨洗手歌儿歌_洗手歌
- 消息!星尚派陈昊_星尚派
- 卢伟冰透露小米618最受欢迎产品 “真的是卖爆了”-世界实时
- 最新资讯:暗黑4刀锋舞者威能使用需要注意什么
- 欧洲月榜:受塞尔达影响 Switch销量5月提升39%
- 热门看点:大文学小说网怎么样_大文学小说网
- 【速看料】这个全国区县级首创活动在东安湖体育公园开幕
- 英国监管机构阻止微软收购动视暴雪 后者获准参与上诉程序 天天即时看
- 今日观点!证监会:基金投顾业务留痕资料保存期限不少于10年
- 世界新动态:80毫米是多少米_80毫米等于多少纳米
- 《修女也疯狂》主演喊话暴雪:凭啥Mac不能玩暗黑4
- 广东省金融局:今年以来广东制造业、科技创新、乡村振兴、绿色低碳等领域信贷都保持20%以上增速 全球信息
- 全球速读:助名特优产品“走出去” 山西启动6·18专题促消费暨全国“棉纺消费季”活动
- 证监会:基金投顾业务服务应满足居民多样化养老需要 世界最资讯
- 当前报道:上海国际电影节首设“科幻电影周” 探讨中国科幻电影未来发展
- 首届中国乡村特色优势产业发展峰会开幕-全球要闻
- 陕西历史博物馆与高校共建大学生思想政治教育基地签约仪式
- 消息称荣耀下月重返印度市场,realme 的 Madhav Sheth 出任 CEO _世界新消息
- “十年一遇”!数万人被疏散,加拿大山林野火为何失控?_世界速读
- 今日报丨抖音橱窗怎么加小黄车?有什么方法?
- 绿色低碳出行展览会关键词:规格层级高、形式手段多、内容技术新 | 2023世界动力电池大会成果
- 蔚来 ET5 旅行版将于 6 月 15 日发布,6 月 16 日起陆续交付_天天亮点
- 今热点:索尼旗舰无线耳机 WF-1000XM5 发布在即,已通过无线充电联盟认证
- 高腰紧身牛仔裤,时髦又百搭,搭配黑色吊带,显得身姿曼妙
- 掌握矿山资源多金属业务齐头并进 株冶集团2023年将再度发力
- 改弦更张与改弦易辙不同点是什么(改弦更张与改弦易辙的区别)
- 环球速讯:招商蛇口前五月签约销售额1368亿元 同比增长76.41%
- 世界速递!上海果然是经济大城!
- 环球热推荐:全自动马桶水箱盖怎么打开(马桶水箱盖怎么打开)
- 韩国 2025 年起将 AI 引入中小学课程 解决教育不平等问题 天天亮点
- 环球简讯:改弦更张与改弦易辙不同点是什么(改弦更张与改弦易辙的区别)
- 3系换什么避震好(3系用什么避震?) 天天滚动
- 《淄博教育》今晚播出丨市领导检查高考准备和保障工作-当前热门
- 世界实时:Sam Altman 北京智源大会「AI 安全与对齐」分论坛演讲实录:十年内将出现超级 AI
- 滑动变阻器电路图接法(滑动变阻器电路图)
- 好消息!6月10日起火车卧铺票可以自选上下铺
- 香港岭南大学分数线河北(香港岭南大学分数线)-世界播报
- 新欢乐满人间电影演员_欢乐满人间 下载_环球快消息
- 新动态:文化的概念包括什么(文化的概念和定义)
- 世界今热点:途家网怎么样(途家网)
- 美国旧金山毒品泛滥、暴力犯罪猖獗 市民称正在目睹西方文明崩溃
- 世界简讯:dlan是什么意思中文(dlan是什么)
- 【当前独家】居民生活电价要调整?假的!
- 环球微资讯!【高质量发展调研行】智慧港口见证科技力量
- 国产大邮轮开启产业新航程 速看料
- 经济日报携手京东发布数据——年轻人成厨房消费新主力
- 深度解读 Vision Pro:苹果在发布会上没说的 18 个细节_当前速递
- 全球热议:丹麦男子10年访遍全球每个国家,不坐飞机,行程36万公里
- 全球今头条!被低估的智能门锁,为何成为智能家居顶流?
- 纯国产32核CPU供货 搭载主机开售了
- 最美童星长大后惊艳全网!16岁时因“不够性感”被导演刷掉,她霸气怒怼:恶心的猪!
- 超千项低碳技术亮相上海碳中和博览 天天微资讯
- 西南地区应对夏季用电高峰——发挥好大电网“调节器”作用
- 30000平方米展厅汇聚新动能:第五届童博会在佛山开幕
- 世界速讯:炎炎夏日,女子选择清凉舒适的吊带衫,尽显温柔气质和曼妙身姿
- 曹刿论战叙事特点_曹秽论战|每日讯息
- 《天空之城》:用纯真对抗贪婪-天天速看
- 曹刿论战叙事特点_曹秽论战 全球速讯
- 表示开心的词语abb式_表示开心的词语 热议
- 深中通道海底隧道历时5年实现合龙
- 全球百事通!后来日语版中文谐音歌词_跪求日文版 后来 的音译歌词
- 童年在人间我的大学主要内容_童年我的大学在人间 读后感
- 中国科学家实现含氯废塑料高效无害升级回收-精选
- RK3588-CAN总线
- 广州市2023年普通高考感谢信
- 2023年6月11日《今日高新区》资讯
- 游戏陪玩行业乱象调查:不少未成年接单,线下陪玩安全难保障_世界今亮点
- 环球新动态:下单成年陪玩来的却是未成年人?陪玩行业乱象调查
- 高质量发展调研行 | 在智慧港口见证大湾区经济活力——广州南沙港走访一线见闻|播资讯
- 环球关注:化疗的时候有什么症状(化疗是什么感觉)
- 首批用户"坐等"提车 吉利银河L7将于6月13日交付
- 端午假期机票比“五一”便宜两成,你想好去哪玩了吗?
- 环球视点!昌平保利影剧院在几楼_昌平保利影剧院
- 学期总结怎么写_学期总结 每日快报
- 设计师资格证查询网站(设计师资格证)
- win7一开机就蓝屏怎么解决
- 魔兽怎么提升追随者品质_追随者品质
- 天天微速讯:2023高考今日落幕,多地公布志愿填报时间
- 苹果要放弃AirPods Max:新功能不给加
- 偏心轮机构动画_偏心轮机构-环球资讯
- 不尽长江滚滚来上一句_不尽长江滚滚来上一句是什么
- 这就是信心|优化营商环境 各地硬招、实招频出
- “连e行”网约公交车开通运营 3条直达线开通_时快讯
- 在家乡的热土上培育梦想-讯息
- 二十碳五烯酸需求量(二十碳五烯酸)
- 环球热消息:镁条在空气中燃烧发出耀眼的白光(镁条在空气中燃烧)