2025-02-03 23:10 阅读量:4k+
华人号:广宽书院务必要疯狂地怀抱雄心,且还要疯狂地真诚。
简介:梁文锋出生于1980年代,广东省的一个五线城市(小镇学霸)。他的父亲是一名小学老师。梁文锋的家庭情况较为低调,公开资料中未提及其婚姻与家庭情况。梁文锋毕业于浙江大学,主修软件工程,本硕,人工智能方向。他在大学期间表现出色,展现了对计算机科学和数学的浓厚兴趣。梁文锋非/常低调,几乎看不到媒体对他的采访,网上难以发现他的照片。本文编写时找到两篇记者采访,能否了解梁文峰的从量化到AI的背景及动因和抱负,包括创办深度求索储备的数万块GPU,以及如何组织AI本土研究人员。阅读DeepSeek V3的技术报告列出的研发人员名单近200人,均为本土CS,很多核心是清北及大学应届的CS硕博,即便核心人员也是毕业3-5年CS博士,研发人员充分信任不断自我选择,这是中国最像OpenAI研发组织分工和氛围的AI研究机构。本文引用了两篇记者采访,以及梁文峰自己为量化之父西蒙斯自传中文版本写的前序,目的是通过记者与梁文峰的问答及撰文真实了解他对AI、量化、组织及AI产品竞争思考及行动,包括低价内心想法和AGI抱负。
目录
1、梁文峰背景和抱负简介
2、深度求索母公司幻方的量化策略
3、幻方的量化+AGI探索之路
4、2024年7月专访幻方梁文锋:DEEPSEEK为何储备万块A100及H800
5、疯狂的幻方:一家隐形AI巨头的大模型之路
5.1 做研究,做探索
5.2 2.万块卡储备与它的代价
5.3 如何让创新真正发生
5.4 真正的疯狂
6、幻方量化梁文锋博客撰文:每当遇到困难时,我会想起西蒙斯的话……
6.1 创造理解市场的模型
6.2 西蒙斯遇到了最好的时代
6.3 信息化时代,金融市场是公平的为量化投资大范围成功扫清障碍
01
梁文峰背景和抱负简介
工作经历和职业生涯:
2008年:梁文锋开始致力于量化对冲领域的研究。
2015年:梁文锋创立幻方量化,开始在量化投资领域崭露头角。
2016年:幻方量化首次上线运行AI策略。
2017年:幻方量化实现投资策略全面AI化。
2019年:幻方量化管理规模已超100亿,成为国内量化私募“四巨头”之一。
2023年7月:梁文锋创立深度求索DeepSeek,专注于AI大模型的研究和开发。DeepSeek推出的DeepSeek V2模型,以其高性价比和创新的模型架构,引发了国内大模型价格战,被誉为“AI界的拼多多”。DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse结构,大幅降低了模型的计算量和显存占用,从而降低了推理成本。DeepSeek被硅谷称作“来自东方的神秘力量”,其创新能力和技术实力获得了国际认可。2024年的圣诞节发布DeepSeek V3 685B开源大模型,超过2024年中期Meta发布的Llama3.2 405B.而且训练成本只有不到600万美金,大约是Meta 405B的九分之一,性能更佳。
梁文锋的职业生涯充满了创新和突破,他在量化投资和人工智能领域都取得了成就。
他AI的观点:
普惠AI的理念:梁文锋认为,无论是API还是AI,都应该是普惠的,人人可以用得起的。他强调技术应该服务于大众,而不是仅仅为了商业利益。这种理念体现在DeepSeek的定价策略上,他们通过降低大模型的API价格,推动了整个行业的价格战,使得更多人能够负担得起AI技术。
开源文化:梁文锋非常推崇开源文化,他认为开源不仅是一种技术行为,更是一种文化行为。开源能够促进技术的普及和进步,同时也能带来额外的荣誉和成就感。他认为,闭源形成的护城河是短暂的,真正的价值在于团队的成长和经验的积累。
创新驱动:梁文锋强调创新的重要性,认为中国AI不应该永远处在跟随的位置,而是要成为技术创新的贡献者。他指出,中国公司过去习惯于模仿和快速商业化,但这并非长久之计。DeepSeek选择从模型结构切入,进行基础研究,而不是直接做应用,这种策略使得他们能够在全球创新浪潮中占据一席之地。技术与商业的平衡:梁文锋认为,更多的投入并不一定产生更多的创新,创新需要好奇心和创造欲,而不仅仅是商业驱动。他强调,DeepSeek的目标是推动技术前沿,而不是快速商业化。他们希望通过技术创新,形成一个生态系统,让其他公司在其基础上构建业务。
团队与人才:DeepSeek非常重视本土人才的培养,他们的团队主要由顶尖高校的应届硕博毕业生和年轻研究员组成。梁文锋相信,通过自身培养和团队的成长,能够打造出顶尖的技术人才,而不必依赖海外挖人。
对AGI的探索:梁文锋对AGI(通用人工智能)持乐观态度,认为在有生之年能够实现。他们在数学和代码、多模态、自然语言等多个方向上进行探索,认为这些领域是实现AGI的关键。
对行业的影响:DeepSeek通过其创新的MLA架构和MoE模型,在大模型领域取得了显著成绩,在本周最新的Chatbot Arena排名TOP10.
西方媒体对他充满了好奇,专门将他以前的访谈译成了英文。
分享他说的几段话,展示了中国顶级研究者的视野和抱负。
(1)我们要做的不是生成式AI,而是通用人工智能AGI。前者只是后者的必经之路,AGI会在我们有生之年实现。
(2)任何AI公司(短期内)都没有碾压对手的技术优势,因为有OpenAI指路,又都基于公开论文和代码,大厂和创业公司都会做出自己的大语言模型。
(3)在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。
(4)我们不会闭源。我们认为先有一个强大的技术生态更重要。
(5)当前阶段是技术创新的爆发期,而不是应用的爆发期。大模型应用门槛会越来越低,创业公司在未来20年任何时候下场,也都有机会。
(6)过去很多年,很多的中国公司习惯了别人做技术创新,拿过来做应用变现,自己等着摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。中国也要逐步成为贡献者,而不是一直搭便车。
(7)大部分中国公司习惯follow,而不是创新。中国创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才。我们没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
(8)我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
(9)我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
(10)我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
(11)中国产业结构的调整,会更依赖硬核技术的创新。很多人发现过去赚快钱很可能来自时代运气,现在赚不到了,就会更愿意俯身去做真正的创新。
(12)我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多,因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
02
深度求索母公司幻方的量化策略
03
幻方的量化+AGI探索之路
深度求索引发关注的同时,市场将目光投向背后的量化巨头幻方量化。创立于2015年的幻方量化,是借助AI等技术手段进行投资的对冲基金,当前管理规模逾100亿。幻方旗下的浙江九章资产管理有限公司和宁波幻方量化投资管理合伙企业(有限合伙)均是在基金业协会备案的证券类私募机构。
幻方量化是为数不多的量化“本土派”的代表,创始合伙人之一徐进是浙江大学信号与信息处理博士,曾任职于华为技术有限公司上海研究所,现任宁波幻方量化投资管理合伙企业(有限合伙)执行事务合伙人、浙江九章资产管理有限公司法定代表人,目前两家幻方量化实际控制人均为梁文锋。
2019年,私募的量化策略产品发行火热,引发市场关注,幻方也同时出现在佳力图(7.230, -0.74, -9.28%)等20余家上市公司的十大流通股东名单中,这段时期还一度出现产品备案速度抵不过客户打款速度的现象,此时,幻方量化已晋升百亿量化私募之列。
同年,致力于AI的算法与基础应用研究幻方AI(幻方人工智能基础研究有限公司)注册成立。AI软硬件研发团队自研幻方“萤火一号”AI集群。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。
此后,“萤火二号”的投入增加到10亿元,算力约为“萤火一号”的18倍,搭载了约1万张英伟达A100显卡。
按此前媒体报道,目前持有量超过1万枚GPU的中国企业不超过5家,即使规模最大的企业也不超万枚。
在AI超级计算机的加持之下,幻方管理规模持续上升,曾一度突破千亿大关。
有论文称,ChatGPT能有效判断文本情感倾向,且经过微调后的大语言模型能有效助力量化投资,为投资者带来超额收益。
“未来AI大模型可以助力量化投资,但是现在还用不上。”上海某头部量化人士指出,主要还是数据不够,特别是高质量的数据不够,“数据量不够模型还非常复杂,可能导致高方差或过拟合”。
幻方量化多位人士也在不同场合重申,AGI不是用来炒股的,有着更多的用处和价值。幻方量化创始人梁文锋也曾在接受媒体采访时表示,公司不会过早地设计基于模型的一些应用,而是会专注在大模型上。幻方的目标是探索AGI,语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以会从大模型开始。
量化交易依旧是核心业务
跨界到了AI,量化交易依旧是幻方过去以及以后的核心业务。
私募排排网数据显示,截至2023年12月31日,有业绩展示的85家百亿私募2023年度收益均值为-0.77%。百亿量化私募表现抢眼,2023年逆势实现正收益。有业绩展示的32家百亿量化私募2023年度整体收益为6.43%,其中31家实现正收益。
其中,九章资产和宁波幻方量化均实现正收益,分别为4.86%和3.71%。
不过,在2024年上半年,幻方量化也遭遇了业绩回撤。一份头部券商重点私募业绩数据显示,截至2024年6月28日,量化机构的核心即策略中证500指数增强策略中,幻方500年内收益为-8.96%。具体来看,该策略1月和2月的收益分别为-3.76%和-9.24%。
幻方在其产品运作说明中称,幻方产品超额回撤较大主要原因是面对不同环境策略应对不理想,在面对短期极端市场未表现出较好的适应性,基于全市场选股构造的投资组合与指数差距较大,形成了明显的超额回撤。回撤暴露出策略在因子迭代、风控管理等方面尚需优化。
为此,幻方在今年2月初已收紧了整体风控,防止小市值股票出现极端流动性危机时对于投资组合的冲击,并在每个交易日分析模型表现,持续进行优化,相信市场会逐步回到正常的轨道,策略模型也会恢复正常。
“量化投资,是依托海量数据(12.560, -1.24, -8.99%)和科学的模型,去做出胜率更高的投资预判。”深圳某私募人士表示,主观和量化没有孰优孰劣,任何策略都有周期性,市场上没有常胜将军,量化投资想要长期稳健的投资收益需要管理人强大的策略升级迭代的能力,这离不开管理人对更高的算力、更精细化的模型和更强的投研团队的投入。
对于当前市场上的一些争议,包括有观点认为“市场高开低走,是量化高抛低吸;市场上涨或下跌,则是量化追涨杀跌”等,7月17日,幻方量化发布公告称,这存在很大误解。幻方量化表示,目前A股的市场有效性已经比较高,短线追涨杀跌很难赚钱。量化作为一个整体,大部分情况下是抑制了市场波动,少部分情况会加大市场波动。量化参与者的专业程度普遍比较高,专业参与者更倾向于逢低买入、逢高卖出,而不是追涨杀跌。同时,在内外部情况发生改变的时候,专业参与者能更快速地推动市场到达新的平衡位置,减少多余的震荡,增加定价的效率。量化策略整体是收敛和理性的,对波动起到了阻尼的作用。
量化投资与机器学习最新统计显示,截至2024年二季度末,百亿级量化私募的管理规模普遍缩水,幻方目前依旧位于第一梯队,管理规模在500亿元到600亿元区间。
04
2024年7月专访幻方梁文锋:DeepSeek为何储备万块A100及H800
专访幻方梁文锋:AI界的拼多多——揭秘DeepSeek!,转录来自暗涌
中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。
一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。
在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。
弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。
这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。
在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”
在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。多位行业人士告诉我们,这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。”
而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见:美国更擅长从0-1的技术创新,而中国更擅长从1-10的应用创新。何况这种行为非常不划算——新一代模型,过几个月自然有人做出来,中国公司只要跟随、做好应用即可。对模型结构进行创新,意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。
DeepSeek显然是逆行者。在一片认为大模型技术必然趋同,follow是更聪明捷径的喧哗声中,DeepSeek看重“弯路”中积累的价值,并认为中国的大模型创业者除应用创新外,也可以加入到全球技术创新的洪流中。
DeepSeek的很多抉择都与众不同。截至目前,7家中国大模型创业公司中,它是唯一一家放弃“既要又要”路线,至今专注在研究和技术,未做toC应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。这些使得它经常被遗忘在牌桌之外,但在另一端,它又经常在社区被用户“自来水”式传播。
DeepSeek究竟是如何炼成的?我们为此访谈了甚少露面的DeepSeek创始人梁文锋。
这位从幻方时代,就在幕后潜心研究技术的80后创始人,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。
和很多量化基金创始人都有过海外对冲基金履历,多出身物理、数学等专业不同的是,梁文锋一直是本土背景,早年就读的也是浙江大学电子工程系人工智能方向。
多位行业人士和DeepSeek研究员告诉我们,梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,他拥有“令人恐怖的学习能力”,同时又“完全不像一个老板,而更像一个极客”。
这是一次尤为难得的访谈。访谈里,这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把“是非观”置于“利害观”之前,并提醒我们看到时代惯性,把“原创式创新”提上日程的人。
一年前(2023年),DeepSeek刚下场时,我们初次访谈了梁文锋 :《疯狂的幻方:一家隐形AI巨头的大模型之路》。如果说当时那句「务必要疯狂地怀抱雄心,且还要疯狂地真诚」还是一句美丽的口号,一年过去,它已经在成为一种行动。
以下为对话部分:
价格战第一枪是怎么打响的?
暗涌:DeepSeek V2模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。
梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
暗涌:这个结果让你们意外吗?
梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
暗涌:5天后智谱AI就跟进了,之后是字节、阿里、百度、腾讯等大厂。
梁文锋:智谱AI降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。
暗涌:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。
梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。
暗涌:在这之前,大部分中国公司都会直接copy这一代的Llama结构去做应用,为什么你们会从模型结构切入?
梁文锋:如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scale up到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。
暗涌:这种代差主要来自哪里?
梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。
暗涌:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
暗涌:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
真正的差距不是一年或两年,而是原创和模仿之差
暗涌:为什么DeepSeek V2会让硅谷的很多人惊讶?
梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。
暗涌:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
暗涌:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?
梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
暗涌:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家copy吧?
梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。
暗涌:你怎么看类似朱啸虎的这种市场信仰派观点?
梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。
暗涌:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
更多的投入并不一定产生更多的创新
暗涌:现在的DeepSeek有一种OpenAI早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI和Mistral都有过从开源到闭源的过程。
梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。
暗涌:你们有融资计划吗?看有媒体报道,幻方对DeepSeek有独立拆分上市的计划,硅谷的AI创业公司,最终也都难免要和大厂绑定。
梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。
暗涌:很多人认为,做AGI和做量化是完全不同的两件事,量化可以闷声去做,但AGI可能更需要高举高打,需要结盟,这样可以让你的投入变大。
梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。
暗涌:你们现在不做应用,是因为你们没有运营的基因吗?
梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
暗涌:但选择API的话,为什么选择DeepSeek,而不是大厂?
梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。
暗涌:但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。
梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。
暗涌:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?
梁文锋:说实话我们不太care这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现AGI。
目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。
暗涌:你怎么看DeepSeek之外的6家大模型创业公司的终局?
梁文锋:可能活下来2到3家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。
暗涌:幻方时代,面对竞争的姿态就被评价为“我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?
梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
一群做“高深莫测”事的年轻人
暗涌:OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeek v2的是怎样一群人?
梁文锋:并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
暗涌:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
暗涌:这次MLA创新是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?
梁文锋:在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。
暗涌:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但AGI这种充满不确定性的前沿探索,是否多了管理动作?
梁文锋:DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。
暗涌:听说DeepSeek对于卡和人的调集非常灵活。
梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
暗涌:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。
梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
暗涌: transformer诞生在谷歌的AI Lab,ChatGPT诞生在OpenAI,你觉得大公司的AILab和一个创业公司对于创新产生的价值有什么不同?
梁文锋:不管是Google实验室,还是OpenAI,甚至中国大厂的AI Lab,都很有价值的。最后是OpenAI做出来,也有历史的偶然性。
暗涌:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。
梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
暗涌:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保DeepSeek就是做大模型的人的首选?
梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
暗涌:前一段OpenAI的发布并没有等来GPT5,很多人觉得这是技术曲线明显在放缓,也很多人开始质疑Scaling Law,你们怎么看?
梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI也不是神,不可能一直冲在前面。
暗涌:你觉得AGI还要多久实现,发布DeepSeek V2前,你们发布过代码生成和数学的模型,也从dense模型切换到了MOE,所以你们的AGI路线图有哪些坐标?
梁文锋:可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。
暗涌:你觉得大模型终局是什么样态?
梁文锋:会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。
所有的套路都是上一代的产物
暗涌:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。
梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。
暗涌:现在你的精力最多放在哪里?
梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。
暗涌:其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek敢于专注在模型研究上是因为模型能力还不够吗?
梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。
暗涌:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?
梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方2015年后的部分,但其实我们做了16年。
暗涌:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?
梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
暗涌:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
05
疯狂的幻方:一家隐形AI巨头的大模型之路
务必要疯狂地怀抱雄心,且还要疯狂地真诚。
在蜂拥而至的大模型团战中,幻方大概是最异类的一个。
这是一场注定是少数人的游戏,很多创业公司在大厂入局后开始调整方向甚至萌生退意,而这家量化基金却孤绝前行。
2023年5月,幻方把下场做大模型的独立新组织,命名为「深度求索」,并强调将专注于做真正人类级别的人工智能。他们的目标,不只是复刻ChatGPT,还要去研究和揭秘通用人工智能(AGI)的更多未知之谜。
不仅如此,在这个被认为格外依赖稀缺人才的赛道,幻方还试图去集结一批有执念的人,并祭出了他们认为的最大武器:一群人的好奇心。
在量化领域,幻方是一家抵达过千亿规模的「顶级基金」,但它被这波AI新浪潮集中关注到,其实还颇具戏剧性。
当国内云厂商高性能GPU芯片缺货成为限制中国生成式AI诞生的最直接因素时,据《财经十一人》报道,国内拥有超过1万枚GPU的企业不超过5家。而除几家头部大厂外,还包括一家名为幻方的量化基金公司。通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛。
其实,这家很少被置于人工智能视野打量的公司,早已是一家隐秘的AI巨头:2019年,幻方量化成立AI公司,其自研的深度学习训练平台「萤火一号」总投资近2亿元,搭载了1100块GPU;两年后,「萤火二号」的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
这意味着,单从算力看,幻方甚至比很多大厂都更早拿到了做ChatGPT的入场券。
只是大模型对算力、算法和数据都有强依赖,所以起步就需要5000万美金,训练一次需要上千万美金,非百亿美金公司其实很难持续跟进。各种艰难之下,幻方却很乐观,创始人梁文锋告诉我们:「关键是我们想做这件事,能做这件事,那我们就是最合适的人选之一。」
这种谜之乐观,首先来自幻方的独特成长路径。
量化投资是一个源自美国的舶来品,这使得几乎所有中国的头部量化基金创始班底,都或多或少有过美国或欧洲对冲基金的履历。唯独幻方是一个例外:它完全是本土班底起家,独自摸索着长大。
2021年,成立仅六年的幻方,抵达千亿规模,并被称为「量化四大天王」之一。
以局外人杀入的成长路径,让幻方始终像一个搅局者。多位行业人士向我们表示,幻方「无论研发体系、产品还是销售,都始终在用一种崭新的方式,切入到这个行业中来。」
一家头部量化基金创始人认为,这些年的幻方,始终「没有按照某种约定成俗的道路在走」,而是「按照他们想要的方式」,即便是有点离经叛道或者争议,「也敢大大方方说出来,然后按照自己的想法去做」。
关于幻方的成长奥秘,幻方内部将之归结为「选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化」,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。
而更关键的秘密,或许来自幻方的创始人梁文锋。
还在浙江大学攻读人工智能时,梁文锋就无比笃信「人工智能一定会改变世界」,而2008年,这还是一个不被认同的执念。
毕业后,他没有像周围人一样去大厂做个程序员,而是躲在成都的廉价出租屋里,不停接受进入诸多场景中尝试的挫败,最终切入了最复杂场景之一的金融,并成立了幻方。
一个有趣的细节是,在最早几年,曾有个同样疯癫的、在深圳城中村做着「不靠谱」飞行器的朋友拉他入伙。后来这个朋友做成了一个千亿美金的公司,名叫:大疆。
也因此,在做大模型必然涉及的钱、人、算力等话题外,我们还和幻方创始人梁文锋特别聊了聊,怎样的组织架构可以让创新发生,以及人的疯狂可以持续多久。
创业十余年,这是这位鲜少露面的「技术宅」型创始人第一次公开受访。
巧合的是,4月11日,幻方在发布做大模型公告时,也引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:「务必要疯狂地怀抱雄心,且还要疯狂地真诚。」
以下为对话:
5.1 做研究,做探索
「做最重要、最困难的事」
36氪:前不久,幻方发公告决定下场做大模型,一家量化基金为什么要做这样一件事?
梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。
幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。
36氪:你们要自训一个大模型,还是某个垂直行业——比如金融相关的大模型?
梁文锋:我们要做的是通用人工智能,也就是AGI。语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。
36氪:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。
梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。
36氪:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。
梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。
大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。
我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。
36氪:为什么你的定义是「做研究、做探索」?
梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。
从近处说,GPT4还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。
36氪:但研究意味着要付出更大的成本。
梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。
36氪:那研究经费哪里来?
梁文锋:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。
36氪:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?
梁文锋:我们也在找不同出资方在谈。接触下来,感觉很多VC对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从VC那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。
36氪:我们对商业模式做了哪些推演和设想?
梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小app都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
36氪:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?
梁文锋:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。
36氪:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。
梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。
从商业角度来讲,基础研究就是投入回报比很低的。OpenAI早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。
我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
5.22.万块卡储备与它的代价
「一件激动人心的事,或许不能单纯用钱衡量」
36氪:GPU是这次ChatGPT创业潮的稀缺品,你们在2021年就可以有先见之明,储备了1万张。为什么?
梁文锋:其实从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。
很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。
36氪:什么样的好奇心?
梁文锋:对AI能力边界的好奇。对很多行外人来说,ChatGPT这波浪潮冲击特别大;但对行内人来说,2012年AlexNet带来的冲击已经引领一个新的时代。AlexNet的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当2020年OpenAI发布GPT3后,方向很清楚,需要大量算力;但即便2021年,我们投入建设萤火二号时,大部分人还是无法理解。
36氪:所以2012年起,你们就开始关注到算力的储备?
梁文锋:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。
36氪:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?
梁文锋:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。
36氪:但这个过程也是一个烧钱行为。
梁文锋:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。
36氪:显卡通常会以20%的速度在折损。
梁文锋:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。
36氪:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。
梁文锋:电费和维护费用其实是很低的,这些支出每年只占硬件造价的1%左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。
36氪:2021年,幻方是亚太地区第一批拿到A100显卡的公司,为什么会比一些云厂商更早?
梁文锋:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到2022年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。
36氪:你会如何看大模型的竞争格局?
梁文锋:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。
头部的创业公司也有技术做得很扎实的,但和老的一波AI创业公司一样,都要面对商业化难题。
36氪:一些人会觉得一个量化基金却强调自己做AI,是为其他业务吹泡泡。
梁文锋:但其实我们的量化基金已经基本不怎么对外募集了。
36氪:你会如何去辨别哪些是AI信仰者,哪些是投机者?
梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。
5.3 如何让创新真正发生
「创新往往都是自己产生的,不是刻意安排的,更不是教出来的」
36氪:深度求索团队的招聘进展如何?
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底ChatGPT3.5风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。
36氪:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在OpenAI、FacebookAI Research等巨头的AI lab里。你们会去海外挖这类人才吗?
梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。
36氪:为什么经验没那么重要?
梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。
36氪:在创新业务上,你觉得经验是阻碍吗?
梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
36氪:幻方从一个完全无金融基因的外行,切入到这个行业,几年内做到头部,这条招人法则是其中秘密之一吗?
梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。
36氪:为什么很多家试图模仿你们,却没有成功?
梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。
事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有KPI,也没有所谓的任务。
36氪:那你们的考核标准是?
梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。
因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。
36氪:选来合适的人后,用何种方式让他进入状态?
梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。
其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。
36氪:你觉得什么是打造一个创新型组织的必要条件?
梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。
36氪:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?
梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。
36氪:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?
梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。
但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。
很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波AI新浪潮之下,一定会有一批新公司诞生。
5.4 真正的疯狂
「创新就是昂贵且低效的,有时候伴随着浪费」
36氪:做这样一件事,最让你们兴奋的是什么?
梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。
36氪:这次大模型招人,什么是我们必卡的条件?
梁文锋:热爱,扎实的基础能力。其他都没那么重要。
36氪:这种人容易找到吗?
梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。
36氪:大模型可能是一件无休止投入的事,付出的代价会让你们顾虑吗?
梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看OpenAI也是烧了很多钱才出来。
36氪:会觉得你们在做一件很疯狂的事吗?
梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。
36氪:这里边会有一种精神奖赏。
梁文锋:类似你徒步50公里,整个身体是瘫掉的,但精神很满足。
36氪:你觉得好奇心驱动的疯狂可以一直持续下去吗?
梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。
06
梁文锋博客撰文:每当遇到困难时,我会想起西蒙斯的话……
5月10日,86岁的文艺复兴科技公司创始人,“量化之王”詹姆斯·西蒙斯(James Simons)离世。
西蒙斯之于量化投资界,就如同巴菲特在主动投资领域中,是神一样的存在。
23岁获得博士学位;
26岁成为破译密码的特工,却因为情商低被解雇;
30岁成为高校数学系带头人;
37岁赢得几何学最高奖项;
44岁闯荡华尔街,成立掀起业界变革的传奇对冲基金公司;
56岁创办了一系列慈善基金;
72岁入选福布斯财富榜全球百大富豪,同年书面承诺,将毕生大部分财产捐给慈善事业。
世界级的数学家、最具影响力的对冲基金经理及慷慨的慈善家,都是西蒙斯身上的标签。
据估算,1988年—2018年,文艺复兴科技公司的旗舰产品大奖章基金获得了年均39.1%的净收益率。
费前数字更为惊人,年均高达66%的收益率,费前收益率没有一年出现亏损,在交易中获得了超过1000亿美元的利润。
他所创立的文艺复兴科技公司每年能从交易中赚取超过70亿美元。
Institutional Investor援引文艺复兴科技公司旗下“大奖章基金”(Medallion)的一名投资者称,该基金仅向公司员工、前员工和少数老客户开放,在动荡的2020年取得了历史罕见的好成绩,全年回报高达76%。
西蒙斯在去年一次接受访谈时说,文艺复兴科技只雇佣没有金融背景、与华尔街没有关系的数学家、物理学家和计算机科学家。
“俗话说,把市场教给数学家比把数学教给市场专家要容易得多~文艺复兴科技的工程师和量化分析师应具备:数学能力、编程能力、对数据的热爱,最重要的是,有能力并渴望在学院式的环境中工作。”
西蒙斯在2021年1月1日辞去文艺复兴科技董事会主席一职,将这个750亿美元管理人的位置移交下一代。
在《征服市场的人:西蒙斯传》一书中,作者格雷戈里·祖克曼首次披露了西蒙斯及其神秘团队的一手资料,讲述了其如何打造这家史上最成功量化公司之一。
国内量化私募顶流——幻方量化,创始人梁文锋曾为这本书作序。
得说,在创始人和团队的很多基因上,幻方都很有几分文艺复兴的样子,尤其是梁文锋本尊的低调,同样的热爱数学建模,热爱计算机技术。
从幻方数年前投资上亿元自主研发深度学习训练平台,到最近梁文锋控股公司推出的人工智能产品,在技术上的投入程度与速度让业内惊诧。
这篇序言不长,但可以看到国内最有“文艺复兴气质”的量化大佬在看西蒙斯时,他在怎样思考。
聪明投资者经湛庐授权,分享给大家。
詹姆斯·西蒙斯
6.1创造理解市场的模型
——文/梁文锋幻方量化创始人
詹姆斯·西蒙斯是量化投资领域的泰斗。一直以来,外界对西蒙斯和他所创建的文艺复兴科技公司所知不多。
但这丝毫不影响无数年轻人在西蒙斯的故事激励下,进入这个神秘的行业。
和很多新技术一样,量化投资刚出现的时候也是被嘲笑的对象,没有人相信计算机可以像人类一样进行投资。
但西蒙斯却敏锐地预见到,随着计算机技术的发展,终有一天“不可能”将会变成现实。
西蒙斯在早期做了诸多尝试,都不太成功,但他并未放弃,他相信时间是站在他这边的。
6.2西蒙斯遇到了最好的时代
西蒙斯是幸运的,他遇到了好的时代。
20世纪80年代末,计算机软硬件的发展到达了一个临界点,人们开始构建真正实用的模型,并在某些投资细分领域取得了初步成功。
在1988年西蒙斯设立大奖章基金时,他已经50岁了,在投资上经历了10余年的挫折,但这一次他抓住了机会,登上了通往新时代的列车。
如今华尔街很多量化巨头的崛起,都可以追溯至这一时期。
西蒙斯和其他先驱者,使用现在看起来并不复杂的技术,迅速摘掉了市场上最低垂的果实,积累了第一桶资金。
这只是开始,在之后的30余年里,计算机技术继续发展,量化投资正逐渐发展成资本市场中的一个新宠,不断有新的模型被开发出来,更多的“不可能”变成了现实,最终使量化投资在21世纪成为金融领域发展的大势所趋。
在这个过程中,文艺复兴科技公司在西蒙斯的带领下,始终站在时代的潮头,成为行业的标杆。
6.3 信息化时代,金融市场是公平的为量化投资大范围成功扫清障碍
文艺复兴科技公司辉煌的30余年,同时也是金融市场监管愈发严格、透明化的30余年。
很早的时候,基金经理可以从公司管理层获得更多信息,从而取得交易优势。
但诸如此类的不公平问题在过去30余年逐步得到了解决。
在信息化时代,金融市场是公平和透明的,人类基金经理和计算机模型站在同样的起跑线上,这进一步为量化投资大范围成功扫清了障碍。
为何恰好是这30余年,金融变得公平和透明了呢?这在某种程度上还是得益于计算机技术的发展。
在西蒙斯即将退休之际,本书的出版,为我们揭开了很多之前未解的疑团,也为我们带来了丰富的可供借鉴的经验。
国外的模式未必能照搬到中国,但阅读本书,可以让我们收获很多的思考和启发。
是什么样的特质和机遇,使西蒙斯成为历史的幸运儿?
如何管理一支优秀的团队,使之30余年立于不败之地?
为什么科技会使金融市场产生如此深刻的变化?
读者可以从本书中寻找答案。
作为后辈,能为西蒙斯的中文版传记作序,我感到十分荣幸。
每当在工作中遇到困难的时候,我会想起西蒙斯的话:“一定有办法对价格建模。”
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。
© 2022 华人头条
服务热线 : 0591-83771172
福建可比信息科技有限公司 ©版权所有
直播备案号 闽ILS备201708250005
举报热线:0591-83771172
举报邮箱:hrtt@52hrtt.com
1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。