潇冷/文

对于自建IT基础设施,马斯克有着足够的经验。

7月10日,由马斯克领导的人工智能初创公司xAI与甲骨文结束一项价值100亿美元的服务器协议的谈判。报道援引参与谈判的人士的话称,双方已经不再就扩大现有协议进行谈判。紧接着,马斯克在其社交媒体平台X表示,xAI正在独立使用英伟达的H100 GPU芯片构建系统,目标是“尽可能快地完成”。

从租用甲骨文2.4万块H100芯片算力,到自行购买英伟达H100 GPU构建系统。显而易见的是,在面对自建IT基础设施与使用第三方服务之间,马斯克再一次选择自建IT基础设施,而上一次还是在X“下云”的时候。当时,X技术团队宣称:过去一年是X平台全面推进工程技术探索的一年,该团队还对X的后台进行了很多重要改进,包括了“下云”。

图源:网络

从X下云到xAI独立使用英伟达H100 GPU芯片构建系统,实力雄厚的马斯克对于自建IT基础设施情有独钟。随着数字化的推进,越来越多的企业将上云与购买智算中心服务作为数字化建设的重要指标,然而,此次自行构建系统似乎与云化趋势唱反调。其背后的原因有哪些?自建系统是否成为一种新趋势?

为何选择自建超级算力工厂?

对于自建的原因,马斯克在X上也有所表示,他写到,xAI正在自建一套由10万块英伟达H100芯片构成的超算系统,目标“以最快的时间完成”,本月晚些时候开始训练,这将成为全球最强大的训练集群。显而易见,马斯克将速度作为重中之重。在他看来,公司核心竞争力在于速度,必须比其他AI公司要快。

他认为,这是赶上进度的唯一办法,当公司的命运取决于是否能成为最快的公司时,必须亲自掌握方向盘,而不是在后方指挥。

从这里可以看出,追求速度也是马斯克应对竞争的手段,在大模型竞争日益激烈的当下,马斯克筹建的xAI自诞生伊始便对标OpenAI,甚至表示,xAI一定会与OpenAI竞争,它会在AGI领域提供比微软、谷歌、OpenAI更富竞争力的替代方案。他还表示,xAI处于起步阶段,赶超OpenAI和谷歌仍需时日。

略显自谦的马斯克近年来在大模型领域动作频频,2023年11月,xAI推出了Grok大模型,今年3月以来,xAI陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision。今年5月,xAI成功融资60亿美元,公司估值一度达到180亿美元。

值得注意的是,彼时Grok大模型的训练基于甲骨文的云服务器,即将发布的大模型Grok 2也是基于甲骨文训练的。

马斯克还透露,下一代大模型Grok 3预计将会在xAI自有超算平台上完成训练。根据目前大模型版本更新的频次来看,xAI自有超算平台的建设时间并不会很长。

超级算力工厂建设并非说说而已

尽管马斯克谈及自建超级算力工厂的原因在于追求速度,但是超级算力工厂的建设也并非简单说说,也并非一蹴而就,摆在马斯克和xAI面前的仍有诸多难题,比如建设成本,又比如电力,再比如选址。接下来,我们一起来详细分析这些难题。

建设成本。xAI正在自建一套由10万块英伟达H100芯片构成的超算系统,也就是这个超算系统需要10万块英伟达H100芯片。

图源:网络

我们知道,H100是英伟达开发的专门用于处理大语言模型数据的AI芯片,每块英伟达H100 AI芯片的价格约为3万-4万美元左右,通过计算可知,自建系统至少花费30亿美元。

要知道这也仅是GPU的消耗,另外还有服务器的搭建,存储、网络等的配套,以及地址的选择、电力的消耗等。在资本层面,今年5月份,xAI成功融资60亿美元,参投者包括红杉资本、富达资管、沙特的王国控股公司等。仅GPU板卡便需要花费一半的资金,更别提场地的租金、电力的消耗等其他成本。

提到超级算力工厂建设当然离不开选址与电力消耗,而选址大概率考虑的因素在于与算力的使用方的距离和电力成本的高低。

我们知道,xAI总部位于旧金山湾区,拥有10万块芯片的数据中心可能需要100兆瓦的专用电力,这比传统云计算中心所需的功率要大得多,因此这些数据中心越来越多地修建在偏远或非传统的地方,这些地方的电力更加便宜。

以世界上最快的超级计算机为例,其电量消耗与美国中型城市相同。如果没有能源效率方面的突破,每年将花费6亿美元来维持这台机器的运转。而xAI超级计算机在这方面的支出可能会更高。

从目前的消息来看,超级算力工厂的选址还尚不清楚。

马斯克打造以智算中心、数据中心为基础的商业版图

从X下云到xAI自建超级算力工厂,不可否认的是,马斯克有着较为雄厚的实力。以云的发展为例,未来,有实力的大厂将更多地选择自建数据中心或算力中心,马斯克便是代表之一。在笔者看来,云或智算中心的弹性可扩展是优势之一,但由服务带来的费用并不低廉,跨企业沟通也成为难题之一,这也是大企业选择自建IT基础设施的原因。

一方面是有实力,另一方面是马斯克将通过xAI训练大模型所构建的超级算力工厂搭建属于自己的商业版图。而这一切就要从大模型军备竞赛谈起了,我们知道,算力、算法、数据是支撑人工智能发展的三要素,在马斯克的版图中,有xAI带来的算法模型,有X、特斯拉等企业带来的数据,唯独缺乏算力,自建超级算力工厂也补齐了版图。

投资公司Brookfield泄露的文件称,X代表了世界上最即时的实时人类对话、兴趣和趋势数据集,xAI可以利用这些数据集帮助训练模型。除了可以从X平台访问的庞大数据量之外,随着用户继续生成新帖子,xAI将不断获得新数据来改进其模型。在笔者看来,通过xAI训练的大模型也将衍生出更多的应用服务于X。

特斯拉也并不例外,如今自动驾驶、智能驾驶火热的当下,大模型的训练也将为特斯拉的发展增砖添瓦,特斯拉也将为xAI提供丰富的交通数据。据泄露的文件显示,xAI应如何利用汽车制造商特斯拉的视频数据,并通过与马斯克的大脑芯片初创公司Neuralink的合作来“与人类安全紧密结合”。

而这一切都离不开超级算力工厂的构建与支撑,并且大模型的训练是持续性的,而进入应用层之后也需要推理算力的支撑。在今年3月于巴黎举办的一次技术会议上,马斯克表示,xAI“还有很多工作要做”,才能与OpenAI和谷歌的技术竞争。

写在最后

虽然终止与甲骨文的谈判为甲骨文带来暂时的损失,其算力也供给给其他厂商,但是对于xAI来说,自建超级算力工厂将大大地有利于xAI的发展,以便于其在竞争激烈的大模型市场保持强悍的竞争力。

未来,人工智能将在人类生产、生活中扮演着至关重要的角色,这些大模型的训练与使用都离不开算力的支撑,尤其是在马斯克构建的商业版图中,也都对算力提出新的需求,从这一点看,马斯克的认知已经很超前。

(8833749)

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com