阿里云周靖人:大模型生态会进行优胜劣汰选择,从而收敛到更完整、完善状态
12月4日消息,阿里云CTO周靖人在12月1日的发布会上宣布阿里云开源通义千问720亿参数模型Qwen-72B。据了解,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型,可适配企业级、科研级的高性能应用。
阿里云CTO周靖人宣布开源通义千问720亿参数模型Qwen-72B
图源阿里云公众号
会后,周靖人做了一场闭门分享。在分享会上,周靖人表示,阿里云目前已经和不少硬件厂商在洽谈合作。之所以开源,就是为了不局限于某一个或某几家厂商,而是有更多开发者和硬件厂商一起来参与、推动。
周靖人指出,阿里云目前做是生态的方方面面,当前更加关注的是模型本身。对于大模型在C端和B端商业变现的机会和价值,他表示,在to C和to B方面应用的探索会有一些,但还没有到井喷的状态。
关于国内大模型大量发布现状,周靖人认为,任何一项技术都有一个蓬勃发展并快速迭代的周期,最终也可能受技术、商业等各方面的约束而收敛。生态的好处,就是它自己会收敛到合适的局面。
通义千问发布会现场
图源阿里云公众号
以下是对话实录(内容经摘编):
Q:阿里云在三季报发布后宣布,坚持更长期的投入及优先公共云的战略调整,大模型是否会有相应的策略调整?
A:我们从年初发布至今整个策略都没有变化,即一方面做技术的突破,另一方面做生态,提供模型的能力。阿里CEO吴泳铭提出的战略调整,也跟整个大模型社区的发展方向非常吻合,没什么具体的差异。公司最近会把技术工作路线更加明确下来。
Q:很多大型厂商选择了不开源,阿里云为什么要选择开源模式?
A:我认为是大家站位不同。在过去10年内,整个开源社区蓬勃发展,今天我们要让更多技术和更多人参与进来。开源社区是最佳的、也是唯一的途径。只有真正从心底去拥抱开放的生态,去促进开发者社区的发展,才能将我们的技术融入到各行各业,最终帮助整个核心技术的突破和创新。
阿里云的初衷不是把模型攥在自己手里,或者做商业化,而是帮助开发者。我们的开源策略,跟整个阿里云的初心是完全一致的。因此,我们不光在模型方面开源,数据库、技术等也都贡献到开源社区。今天AI的发展,一定不是由一家公司完成的。不管谁有最强的模型,如果没有开放的技术和经验,是无法在各项应用场景中落地的。
Q:在大模型能力上中国企业和美国企业的差距是什么?
A:科技创新上,原则上是大家你追我赶,都在做非常中长期的一系列探索,在这个时间点或许有差距,但也许差距在缩小,甚至扭转也有可能。这就是科技创新的魅力。
我们能看到(和ChatGPT)之间有一定差距,还有需要提升的空间,但是不能妄自菲薄。比如多模态等,国内很多产品也能做到ChatGPT的水平,甚至超越它。通义千问和ChatGPT 4.0在使用体感上,是互有胜负的。
Q:通义千问与其他闭源模型相比水平如何?
A:讲到评测指标,国外的Hugging Face在全球比较有影响力,它有一系列测评标准,会展现一个客观的评价。当然,不是所有闭源模型都会参与测评。在Hugging Face上,我们在开源14B的时候是非全模型排名第三,72B发布之后我们会继续等待测评。我认为我们可能会登顶。
Q:Open AI 最近选择了Agent作为下一步开发方向,你们有什么思考和跟进?
A:Agent这个概念不是Open AI最近提出的,但它是一个非常重要的模型利用的领域。目前我们社区已经贡献了很多关于Agent的开发和创新,接下来每个月都有相关进展,包括如何帮开发者搭建这样一个Agent,也会有一些新的功能推出。
Q:联想未来将会发布与阿里云合作完成的AI PC(个人电脑),大模型会给PC带来哪些实质性影响?
A:与联想的合作是一个良好的开端。我们希望不单单是在复杂和昂贵的机器上使用模型的能力,而是把它带到各种端。当我们真正进入AI时代,大模型将改变日常生活,模型服务在各个领域无所不在。今后每一个电子设备和生活环节,从早晨的闹钟开始,都会有模型的支持。我相信很快会进入这样一个时代。
Q:未来是否会和更多硬件厂商进行合作?
A:目前已经有不少硬件厂商在洽谈,我们的心态是非常开放的。之所以开源,就是为了不局限于某一个或某几家厂商,而是有更多开发者和硬件厂商一起来参与、推动。
Q:怎么看待大模型在C端和B端商业变现的机会和价值?
A:我们要做是生态的方方面面,所以当前更加关注的是模型本身。在to C和to B方面应用的探索会有一些,但还没有到井喷的状态。模型的应用是没有to C和to B之分的,但我们也希望模型的能力能够渗透到日常生活和工作学习中。接下来会看到一些创新,也许今后几个月,我们就会聊到一系列应用,以及如何帮助到to C和to B的产品。
Q:阿里云认为实现AGI还要多久?
A:AGI已经成为社会性的话题,有各种各样的解释。但我认为现在谈AGI还太早,因为还有很多技术难题,还有很多长足的工作要做。由于ChatGPT的爆发,让一年前不怎么关注人工智能的人现在都在关注,我作为技术工作者感到欣慰。但从整个技术发展来看还需要很多时间,请大家给予更多耐心。不要今天关注一个热点,3个月没爆发,大家就淡忘了。
Q:通义千问会将技术产品优化和商业化落地当成重点,还是像Open AI一样将AGI当作愿景?
A:我们做的工作其实是没有人指引的。通义千问首先是追求技术的卓越和极致的技术探索。如何能够把模型的方方面面提升起来?这本身就是一个研究课题,这方面一定是我们接下来的工作重点。
但在这个时代,科研、技术、产品这几个维度是更有机地联合在一起的,没办法像以前分得那么开。光埋头苦干做研究,不做技术产品、不做技术生态,在今天也不行。这就是为什么通义千问是一整个通义模型家族。我们不断追求技术突破,同时也开源自己的模型,帮助整个生态繁荣。我们还做产品,包括通义千问App、网页版产品。
Q:通义千问在技术上还面临哪些挑战?
A:整个大模型还处在发展初期。不管谁家的大模型,都还有很多提升空间。今天的模型具备视觉、听觉的能力,但如何像人一样思考、去识别万物,所有大模型都还有一定差距。通义千问产品这次推出了视觉模型能力,对图片的理解在很多层面是超过ChatGPT 4.0的,但距离人类的认知能力还有一定差距。
如何让这个模型有更多思维能力、像人一样去思考,这方面才刚刚起步。我们当前有非常多要解决的技术难点,这也是为什么接下来每个月都会有一系列技术突破。整个通义千问模型的升级能力远远没有结束。
Q:实现了从0到1后,是创新更重要,还是推广产品更重要?
A:追求技术的卓越一直是阿里云的初衷。在一定程度上,所谓从0到1和从1到2没有本质区别,都是在做突破。从0到1非常难,因为要探索一条新的道路。但继续把产品技术打磨好,每提高一个百分点,其实也隐藏着非常多的技术难题和投入。
Q:上一次开源14B反响不错,为什么要再去开源更高的72B?哪些场景是14B无法解决的?
A:14B是一个非常好的起点,但模型的能力还在不断发展中,创新技术的突破一直没有停止过,14B更往上还有很多提升的空间。这是推出72B模型的初衷,今后14B和7B也会有升级的版本出来。
在不同的企业和不同的开发环境,大家对模型的尺寸、能力及背后使用的资源有不一样的考虑,有时会追求极致的性能。我们不应该用一个模型、一个尺寸,要求大家对接所有的场景,而是应该把选择权留给开发者和企业。
Q:国内已经发布了200多个大模型,需要这么多吗?合理的生态是什么样的结构?
A:任何一项技术都有一个蓬勃发展并快速迭代的周期,最终也可能受技术、商业等各方面的约束而收敛。生态的好处,就是它自己会收敛到合适的局面。
今天我们有200多款大模型,能够感受到科技界积极拥抱的态度。今年1月时大家还感觉很消极,觉得跟海外差距很大,到12月已经没有这样的感觉。我相信整个市场、整个生态也会进行优胜劣汰的选择,也会收敛到更完整、完善的状态,这就是生态的魅力。