收购NBA球队的事刚告一段落,玛格丽特就打电话来了。
“福田,你投的那家AI公司,出事了。”
福田正在洛杉矶的酒店里收拾行李,准备回东京。听到这话,他把衣服放下,说:“什么事?”
玛格丽特说:“不是坏事。是好事。他们的模型跑通了。你赶紧过来看看。”
福田挂了电话,改签了机票,当天下午就飞到了硅谷。
那家AI公司叫NeuralMd,在帕洛阿尔托的一个共享办公空间里,租了三个小房间。福田第一次见他们的时候,公司只有六个人,挤在两张桌子上写代码。创始人叫Alex,是个三十出头的华裔,MIT博士,在谷歌干了两年受不了大公司的 bureaucracy,跑出来自己创业。
福田第一次见Alex是在玛格丽特组织的一个路演上。Alex上台讲他的大语言模型,讲得磕磕巴巴的,PPT也做得不好看,底下的投资人都在玩手机。但福田用系统分析了他的技术架构,发现有一些很有意思的东西——他在模型里加入了一种新的注意力机制,理论上可以把训练效率提升百分之三十以上。
路演结束之后,福田去后台找他。Alex正在收拾东西,垂头丧气的。
“Alex,你的模型,我感兴趣。”
Alex抬起头,看着福田,眼神里有意外,也有警惕。“你是哪个基金的?”
福田说:“我自己。福田集团。”
Alex显然没听说过福田集团,但他也没拒绝。两个人聊了一个多小时,福田把系统分析出来的几个技术问题跟他对了对,Alex的眼睛越来越亮。
“你怎么看出来的?这些问题我连我的联合创始人都没说过。”
福田说:“我做过一些研究。你的注意力机制很有意思,但你的训练数据不够。大语言模型需要海量数据,你现在的规模,不够。”
Alex叹了口气,说:“我知道。但要扩大规模,需要钱。我见了很多投资人,他们都说技术不错,但太早了,等有了产品再找他们。”
福田说:“你需要多少?”
Alex愣了一下,说:“你要投?”
福田说:“对。你需要多少?”
Alex想了想,说:“五百万美金。够我们跑一年,把模型训练出来。”
福田说:“我给你一千万。但我要百分之三十的股份。”
Alex看着他,说:“你疯了?一千万买百分之三十,估值三千多万。我们上一轮才估值八百万。”
福田说:“上一轮是上一轮。你现在的技术,值这个价。”
Alex沉默了很久,然后伸出手,说:“成交。”
那是八个月前的事。
现在,NeuralMd已经从一个六人的小团队,发展成了四十多人的公司。Alex在帕洛阿尔托租了一栋小楼,有自己的办公室和GPU机房。福田每隔两周会来一次,跟他们讨论技术进展和产品方向。
福田到NeuralMd的时候,Alex正在会议室里等他。桌上摊着几台电脑,屏幕上显示着各种数据和图表。Alex的眼睛红红的,头发乱糟糟的,但整个人很兴奋,像打了鸡血一样。
“福田先生,你看这个。”他把福田拉到电脑前,调出一段对话记录。
福田看了看,是模型跟测试人员的对话。测试人员问了一个很刁钻的问题,模型的回答逻辑清晰,引经据典,甚至带了一点幽默感。
“这是我们的新模型,NeuralMd-3。参数规模一千二百亿,训练数据两万亿token。在MMLU测试上,得分百分之八十七点三。超过了GPT-4。”
福田用系统分析了一下数据。Alex没有骗人,数据是真实的。不仅真实,而且保守了。系统给出的评分是百分之八十九点一,比Alex报的还高。
“什么时候能发布?”福田问。
Alex说:“再跑两轮测试,大概一个月。但有个问题。”
福田说:“什么问题?”
Alex说:“算力不够。最后一轮训练需要两千张H100,我们现在的预算不够。”
福田想了想,说:“需要多少?”
Alex说:“两千万美金。”
福田说:“我给你。”
Alex看着他,说:“你不考虑一下?”
福田说:“不用考虑。你的模型是真的,算力不够就去买。钱的事,我来解决。”
Alex的眼眶红了。他低下头,用手背擦了擦眼睛,然后抬起头,笑了。
“福田先生,谢谢你。”
福田说:“不用谢。这是你的功劳。”
当天晚上,福田把这个消息告诉了玛格丽特。
两个人在玛格丽特家里吃饭,福田把NeuralMd的数据给她看。玛格丽特看得很认真,每一条数据都要确认一遍。
“一千二百亿参数,MMLU百分之八十七点三……”她放下电脑,看着福田,眼神里有惊讶,也有感慨,“你这个项目,投对了。”
福田说:“是您的眼光好。当初是您让我去看路演的。”
玛格丽特摇摇头,说:“我让你去看,是觉得Alex这个孩子有潜力。但我没想到他能做到这个程度。”
她顿了顿,说:“你知道这意味着什么吗?如果他们的数据是真的,那他们现在的模型,已经超过了市面上所有的开源模型,跟闭源模型比也不差。这个赛道,又要变天了。”
福田说:“所以我们要快。发布之前,把专利、商标、域名全都注册好。发布的时候,要有足够的算力支撑,不能崩。发布之后,要快速占领市场,不能让巨头抄过来。”
玛格丽特看着他,笑了。
“你这个人,做什么事都想好了后面三步。”
福田说:“不是三步,是十步。”
玛格丽特摇摇头,说:“你比我还会投资。”
接下来的一个月,福田忙得脚不沾地。
两千万美金的算力预算,他从奥尔加和娜塔莎的投资池里调了一部分,又从伊万卡的AI基金里拆借了一部分,加上自己的钱,凑齐了。两千张H100,他通过珍妮弗的关系,从加州的一家数据中心拿到了优先采购权,两周之内就到位了。
Alex带着团队没日没夜地跑训练,福田每周去两次,有时候带着饭,有时候带着咖啡。他不懂代码,但他懂人。他能看出来谁累了,谁焦虑了,谁快撑不住了。
“你该休息了。”有一次他看到Alex连续工作了三十六个小时,硬是把他从机房拖出来。
Alex说:“不行,训练快跑完了,我要盯着。”
福田说:“你盯着,模型也不会跑得更快。你去睡四个小时,回来再看。代码不会跑掉。”
Alex看着他,想反驳,但实在没力气了。他趴在桌上,不到一分钟就睡着了。
福田把自己的外套盖在他身上,然后坐在旁边,看着屏幕上滚动的数据。
系统在分析每一行日志,每一组loss值,每一个参数的收敛速度。所有指标都在正常范围内,甚至比预期还好。
训练跑完的那天,Alex哭了。
他站在机房里,看着屏幕上显示的训练完成,眼泪就掉下来了。不是抽泣,是那种无声的、眼泪一直流的哭。
“三年了。”他说,“三年,从一张GPU到现在两千张。从一个人到现在四十个人。从零到现在……”
他说不下去了。
福田站在他旁边,没说话,只是拍了拍他的肩膀。
Alex擦了擦眼泪,说:“福田先生,谢谢你。没有你,这个模型跑不出来。”
福田说:“跑出来了。是你的功劳。”
Alex摇摇头,说:“不是。技术是我的,但没有你的钱,你的信任,我撑不到今天。”
他顿了顿,说:“你知道吗,之前我见了三十多个投资人,没有一个人信我。都说太早了,太冒险了,太疯狂了。只有你信。”
福田说:“因为你的技术是真的。”
Alex看着他,笑了。笑里带着泪,但很真。
“福田先生,你是我见过的最好的人。”
一个月后,NeuralMd-3正式发布。
发布会在旧金山的一家酒店里,来了两百多号人,有投资人,有媒体,有开发者。Alex站在台上,穿着一件新的衬衫,头发梳整齐了,看起来很精神。但福田知道,他昨晚又熬了一夜,改PPT改到凌晨四点。
Alex讲了一个小时,从技术架构到训练数据,从性能指标到应用场景。他讲得比上次路演好多了,虽然还是有点磕巴,但内容扎实,数据详实,底下的人听得都很认真。
讲完之后,是现场演示。Alex随机选了五个问题,让模型实时回答。有逻辑推理题,有代码生成题,有文学创作题,模型的表现都很出色。最后一个问题,是一个开发者的刁难:“请用莎士比亚的风格,写一段关于Transforr模型的十四行诗。”