2025-03-01 12:31 阅读量:1.8万+
华人号:人大重阳编者按:近日,复旦大学特聘教授、北电数智首席科学家窦德景在通州·全球发展论坛(2025年春季)“DeepSeek中国人工智能、跳跃式发展与全球2050目标”主题研讨会上发言指出,尽管生成式AI技术尚未实现大规模盈利,但其在企业内部运营、客户服务和数据分析等方面的潜力巨大,未来将为各行各业带来更广泛的应用场景。现将其发言整理发布如下:
→超大规模参数深度学习模型(大模型)带来的“涌现”是本轮人工智能发展的重要特征能力一一大模型训练拉动超大规模算力需求、超大规模数据需求ChatGPT是首个在全球范围内爆红的生成式人工智能(GenAI)应用。它的发布仅五天,就突破了100万用户的门槛,不到两个月的时间,用户量便激增至一个亿,创造了历史性的纪录。
这一成就不仅标志着人工智能技术的飞跃,也为人工智能行业带来了前所未有的关注和讨论。
我相信,这种现象级发展前无古人,但肯定不是后无来者的。未来,可能会有新的APP出现,甚至或许将由DeepSeek这样的新大模型技术推出,说不定它会超过ChatGPT。
→GenAI不仅仅是一个炒作概念,而是具有真正吸引力的变革
从时间线上看,其实“人工智能”这个词并不是因为ChatGPT或者深度学习才开始流行的。早在1956年,达特茅斯会议上就首次提出了人工智能的概念。到了上世纪末,机器学习开始崭露头角,2010年左右,深度学习技术得到了快速地发展,而2017年Transformer架构的出现更是掀起了一波新的浪潮。到现在,已经过去七八年了,即便是DeepSeek这样的新大模型技术,依然没有完全摆脱Transformer架构的束缚。我相信,未来很快会有新的架构出现,甚至可能是最早由DeepSeek发布的,这也不好说。
→Deepseek的出现并没有颠覆Scaling law——但是能用更少的时间和计算资源来媲美目前最好的大模型功能
DeepSeek的出现是不是已经颠覆了Scaling law?我们看到,模型的参数大小和性能之间有一定的关系,通常来说,它们是成正比的,也是符合Scaling law的。但是我个人认为,到了GPT-5,模型的参数可能会接近10万亿,这个数量已经接近极限,不需要再大了。
未来应该考虑DeepSeek发展这条路,该如何优化现有的架构,如何用更小的成本和更少的时间,进一步提升模型的性能。
如果把参数的概念带入到人的概念当中去,那么参数不是指神经元的数目,而是指有多少神经元之间的连接。从这个角度看,人的大脑大概有100万亿个参数,但人工智能并不需要达到这个量级,因为人类大脑常用的面积只占大脑总面积的不到1/10,所以我们只需要模拟到与人类大脑参数的十分之一就足够了。OpenAI今年预计会发布达到通用人工智能(AGI),我认为应该是指GPT5。
GPT-5将是达到通用人工智能的重要标志,接下来就是要考虑如何基于此进行优化和落地应用。
→生成式AI在商业上的应用创新大幅提升生产效率
生成式AI或者大模型给我们带来了很多商业化应用,现在已经发生。
大模型的效果,基本上在各个行业中都能得到应用,比如营销、销售、物流、法务等,都没有问题。但是,我目前还没有看到一个完全能够赚钱的APP或应用。大多数大模型公司还是在贴钱提供服务。然而,DeepSeek之所以这么成功,一个主要原因是他们并不依赖大模型赚钱。他们有一定的资金投入,用来组建一个专门团队来做大模型研究,而这个团队不需要考虑传统的KPI。
→水平应用场景:生成式AI可提升各类行业的内部运营效率、提高收益
我主要讲几个例子,都是我参与的或者领导过的项目。比如在人力资源领域,我们做了一个社保知识机器人,专门回答一些员工常见的问题,比如广州的社保政策、补缴政策等。这个项目最初非常简单,使用了一个开源的60亿参数的清华智谱模型。客户当时资金有限,我们不能透露他们的名字,这是规矩。我一开始带着他们去百度谈判,但百度的报价太高。最终,我们决定使用开源模型,经过5小时的微调和1万次训练,成功将这个原本回答得不怎么专业的开源小模型,训练成了一个能专业回答社保政策相关问题的智能系统。最近,我们北电数智也做了一个类似的项目——北京市政务大模型。
还有一个关于业务稽核的应用,尤其是在隐私号对话中的应用。例如,外卖小哥与客户对话有时会产生矛盾,甚至可能涉及违规、骚扰等问题。对于隐私号提供商来说,如何尽早发现话里的这些问题非常重要。与传统方法相比,使用大模型后,准确率、召回率都大幅度提高,问题可以更早被发现并解决。
很多行业都在做VOC(Voice of Customer),比如一个产品一经推出,就需要了解大家的反应如何,在社交网络上有什么信息,那么这些信息该怎么收集整合?原来咨询公司主要依赖年轻人来完成这一过程,现在使用大模型可以更高效地收集信息、表达观点。
另外,保险行业也在尝试利用大模型来替代一些销售助手的工作。说得悲观一点,他们的位置很有可能被大模型取代。我们尝试过,大模型的效果相当好,能节省时间和成本。
我离开BCG之前参与了一个外企药厂的项目,这家公司在中国有3000多名医药代表。每当新药上市,就要培训这些医药代表跟医生交流,销售新药。不论这些代表有多少经验,这个培训过程必须走。原来,这个培训需要花费一整年的时间,而且有30个培训老师要分赴全国各地,或者将代表们集中到大城市进行培训。而我们用大模型模拟了医生与医药代表的对话,快速完成了培训并评估效果。相比原本的传统方式,这个过程迅速多了,就像诺贝尔获奖的AlphaFold,原本花费9个月时间预测蛋白质结构,现在5分钟就能做出来一样。这不仅节省了大量时间,还显著提高了效率。
→DeepSeek通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知
总体来说,我们看到,人工智能,尤其是生成式AI,显然仍有非常大的市场空间。DeepSeek的技术特点和创新虽然不能说是革命性的,但它确实在很多方面有些特色,把这些特点结合起来,取得了很好的效果。至少从性能上来说,DeepSeek和OpenAI的O1是相提并论的。
区别在于,DeepSeek在算力上的消耗甚至低于其他千亿参赛级别的模型。拿千亿级的模型和百亿或者十亿级的模型比较,其实意义不大,毕竟Scaling Law依旧成立。千亿级的模型肯定比百亿级的强,而百亿级又比十亿级的要好。OpenAI的GPT-4大约有1.8万亿个参数,而DeepSeek目前的参数量已经到了差不多1/3了,在国内已知的开源模型中已经是最大的,它最好理所应当,并不奇怪。但是DeepSeek效能提升的同时并没有花费大量的资源,这个各个公司都在看为什么能这样。
另外,DeepSeek的日活跃用户数(DAU)也在迅速增长,成为国内使用量最高的大模型应用,在世界范围内也名列前茅。由于DeepSeek的发展井喷态势,它的表现开始影响到相关产业,特别是芯片行业,一开始英伟达股价大幅下跌,现在又涨回来。其实越是有这样一个价格比较合理的模型,就能有越多的中小厂商加入到大模型应用这个行业里面来。
随着模型变得更加普及,市场对于算力和芯片的需求将会大大增加。因此,我们反而更加看好算力、芯片等基础行业的未来。
谢谢大家!
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。
© 2022 华人头条
服务热线 : 0591-83771172
福建可比信息科技有限公司 ©版权所有
直播备案号 闽ILS备201708250005
举报热线:0591-83771172
举报邮箱:hrtt@52hrtt.com
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。