2025-01-31 15:17 阅读量:3k+
华人号:豫头条OpenAI 的ChatGPT、谷歌的Gemini和 Anthropic 的Claude等最先进的人工智能系统通过响应用户提示生成多种语言的流畅文本而吸引了大众的关注。这些公司还因投入巨额资金构建更强大的模型而成为头条新闻。
中国的人工智能初创公司DeepSeek颠覆了人们对打造最新、最强大的人工智能所需资金的预期。在此过程中,他们对大型人工智能公司数十亿美元的投资产生了怀疑。
我通过研究人工智能发现,DeepSeek 的颠覆性首次亮相并非源于任何惊人的技术突破,而源于一项历史悠久的做法:寻找效率。在一个消耗大量计算资源的领域,这已被证明具有重要意义。
成本在哪里
开发如此强大的 AI 系统首先要构建大型语言模型。大型语言模型可以根据前面的单词预测下一个单词。例如,如果一个句子的开头是“相对论是由阿尔伯特发现的”,大型语言模型可能会预测下一个单词是“爱因斯坦”。大型语言模型经过训练后,可以擅长进行此类预测,这个过程称为预训练。
预训练需要大量数据和计算能力。这些公司通过爬取网络和扫描书籍来收集数据。计算通常由图形处理单元(GPU)驱动。为什么是图形?事实证明,计算机图形学和大型语言模型所依赖的人工神经网络都依赖于同一数学领域,即线性代数。大型语言模型内部存储了数千亿个称为参数或权重的数字。这些权重在预训练期间会被修改。
大型语言模型会消耗大量的计算资源,从而意味着消耗大量的能源。然而,预训练还不足以产生像 ChatGPT 这样的消费产品。预训练的大型语言模型通常不擅长遵循人类的指令。它也可能不符合人类的偏好。例如,它可能会输出有害或辱骂性的语言,这两种语言在网络上的文本中都存在。
因此,预训练模型通常会经过额外的训练阶段。其中一个阶段是指令调整,其中向模型展示人类指令和预期响应的示例。指令调整之后是称为从人类反馈中进行强化学习的阶段。在此阶段,向人类注释者展示对同一提示的多个大型语言模型响应。然后要求注释者指出他们更喜欢哪个响应。
构建 AI 模型的成本显而易见:聘请顶级 AI 人才、建立拥有数千个 GPU 的数据中心、收集预训练数据并在 GPU 上运行预训练。此外,指令调整和从人工反馈进行强化学习阶段的数据收集和计算也需要成本。
所有这些加起来,建立一个尖端人工智能模型的成本可能高达1 亿美元。GPU 训练是总成本的重要组成部分。
模型准备就绪后,支出并不会停止。当模型部署并响应用户提示时,它会使用更多计算,称为测试时间或推理时间计算。测试时间计算也需要 GPU。2024 年 12 月,OpenAI 宣布了他们在其最新模型 o1 中发现的一个新现象:随着测试时间计算的增加,该模型在数学奥林匹克和竞争性编码问题等逻辑推理任务上表现得更好。
减少资源消耗
因此,打造世界上最好的人工智能模型的途径似乎是在训练和推理过程中投入更多的计算。但 DeepSeek 的加入却扭转了这一趋势。
DeepSeek的 V 系列模型(最终成果是V3 模型)采用了一系列优化,使训练尖端 AI 模型的成本显著降低。他们的技术报告指出,训练 V3 模型的成本不到 600 万美元。他们澄清,这笔费用不包括聘请团队、进行研究、尝试各种想法和数据收集的费用。但对于训练一个可以与以高得多的成本开发的领先 AI 模型相媲美的模型来说,600 万美元仍然是一个令人印象深刻的小数目。
成本的降低并非归功于单一的灵丹妙药。这是许多智能工程选择的结合,包括使用更少的位数来表示模型权重、神经网络架构的创新以及减少 GPU 之间传递数据时的通信开销。
值得注意的是,由于美国对中国的出口限制,DeepSeek 团队无法使用 Nvidia H100 等高性能 GPU。相反,他们使用了Nvidia H800 GPU,Nvidia 将其设计为性能较低,以符合美国的出口限制。在这一限制下,DeepSeek 团队似乎释放了更多的创造力。
DeepSeek 还进行了创新,使推理更便宜,从而降低了运行模型的成本。此外,他们还发布了一个名为 R1 的模型,该模型在推理任务上可与OpenAI 的 o1模型相媲美。
他们公开发布了 V3 和 R1 的所有模型权重。任何人都可以下载并进一步改进或定制他们的模型。此外,DeepSeek 在宽松的MIT 许可下发布了他们的模型,该许可允许其他人以最少的限制将这些模型用于个人、学术或商业用途。
重新设定期望
DeepSeek 从根本上改变了大型 AI 模型的格局。经济实惠的开放权重模型现在与需要付费订阅计划的更昂贵和封闭的模型相媲美。
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。
© 2022 华人头条
服务热线 : 0591-83771172
福建可比信息科技有限公司 ©版权所有
直播备案号 闽ILS备201708250005
举报热线:0591-83771172
举报邮箱:hrtt@52hrtt.com
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。