主页 › 阅读 › 有意思吧 › 40%算力训练效果比肩GPT-4，实测DeepMind联创大模型创业新成果

40%算力训练效果比肩GPT-4，实测DeepMind联创大模型创业新成果

量子位发布于 8月前

21 0

克雷西发自凹非寺

量子位 | 公众号 QbitAI

大模型竞赛，又杀出一匹黑马——

Inflection-2.5，由DeepMind联创Mustafa Suleyman的大模型初创公司打造。

只用40%的计算资源训练，表现就超过了GPT-4的九成，尤其擅长代码和数学。

而早期的Inflection模型，训练时只消耗了4%的计算资源，就达到了GPT-4表现的72%。

以Inflection模型为基础，该公司还推出了网页端对话机器人Pi，主打“高情商”和“个性化”，还支持中文。

自诞生以来，Pi的最高日活达到了100万，累计产生了40亿条消息，平均对话时长来到了33分钟。

而随着这次基础模型的升级，Pi也迎来了它的新版本。

那么，Inflection，或者说Pi，表现到底有没有那么强，量子位进行了一番实测。

无需登录即可使用

打开Pi的页面，映入眼帘的是这样一个极简界面，而且还可以不用登录，直接点击Next。

连续Next几次后，输入希望Pi称呼我们的方式。

之后是选择声音和推荐话题，直接跳过就可以了，然后就进入正式的聊天界面了。

简单测试发现，Pi支持中文对话，既然如此那就先把弱智吧Benchmark给安排上。

第一题，老鼠生病了可以吃老鼠药治好吗，Pi成功解答。

再来一道“陷阱”题，这次依旧没有上当。

两道问题过后，虽然没有出现什么戏剧性效果，但看起来对中文也是有一定的理解了。

接下来就重点看看官方宣称“尤其擅长”的数学和代码能力。

首先是一道涉及动态规划的编程题目。

Pi给出的代码成功解决了这个问题，并且配有清晰的解释。

接下来再提升一下难度看看，让其分析一个数字的阶乘中末尾有多少个0。

Pi给出的代码不仅正确，而且简洁高效，运行速度超过了LeetCode上73.8%的用户。

最后再来增加一下难度，以一道47.5%通过率的题目结束代码部分的测试。

看完代码，再来测测Pi的数学能力怎么样，让它做做关于导数的题目：

求出函数f(x)=x³+2x²-1的极值点

解答完全正确，而是十分详细。

当然要想数学好，逻辑思维是必不可少的，所以我们在常规的数学题之外，又用一道经典的题目考验了一下的Pi逻辑思维，结果还不错。

通过Pi的表现，可以看出其背后的Inflection-2.5模型的确可圈可点。

而从官方自己公布的测试数据来看，无论是综合能力还是各个子项，Inflection-2.5的表现都紧随GPT-4。

以数学和代码为例，Inflection-2.5在MATH、HumanEval等测试中都比1.0版本都有大幅飞跃。

在这些常规的数据集之外，Inflection还挑战了匈牙利高考数学试题和GRE物理测试，结果几乎与GPT-4打成平手。

更“刁钻”的，还有人专门用大模型难以理解的问题构建了一个BIG-Bench数据集，而Inflection-2.5挑战了其中的Hard子集，结果和GPT-4的差距不到一分。

那么，Inflection-2.5的背后，是怎样的一家公司呢？

DeepMind联创大模型创业

这家公司名叫Inflection AI，由DeepMind联创Mustafa Suleyman等人于2022年创立，目前共有70余人。

同样来自DeepMind的，还有资深研究员Karen Simonyan，现担任Inflection AI的首席科学家。

此外，LinkedIn联创Reid Hoffman也参与了Inflection AI的创立。

创立以来，Inflection AI已经获得了来自英伟达、微软、比尔盖茨等巨头的共计15亿美元的融资。

目前，基于Inflection的Pi还是免费的，但CEO Suleyman也表示，一直用爱发电不现实，长久地看以后还是要收费。

想要体验的朋友，可能要抓紧时间了~

传送门：

https://pi.ai

参考链接：

[1]https://inflection.ai/inflection-2-5

[2]https://www.axios.com/2024/03/07/inflection-ai-chatgpt-openai-comparison

— 完 —

量子位 QbitAI · 头条号签约

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

#pi#

40%算力训练效果比肩GPT-4，实测DeepMind联创大模型创业新成果

无需登录即可使用

DeepMind联创大模型创业

友情提示

谷歌安卓新修复46个安全漏洞包括一个“零日漏洞”

早报：曝iPhone 16 9月10日发布吉利银河E5正式上市

谷歌酝酿全新安卓天气应用：简洁设计，随 Pixel 9 系列手机亮相

外媒称谷歌Pixel 9 Pro Fold即便不涨价也会推迟发布

意外之举？谷歌Pixel 9系列或搭载Android 14系统发布

谷歌新款 45W 充电器渲染图曝光，搭配 Pixel 9 系列手机使用

儿子月薪8000，偷偷给父母300，媳妇得知后将公婆扫地出门。

大爷这操作是真虎！黑龙江野生老虎进村完整视频！

传递爱国正能量，从我做起，刘老师好样的！

秦琼落魄到要卖马，开价50两被嘲笑，下秒竟有人白给他送钱

卢比奥或将担任美国国务卿，鹰派内阁上台，中美硬仗将无可避免？

化痰特别厉害的一味药，对咽喉也特别好，学会运用能治很多病

美总统之子亨特·拜登就9项税务指控罪名认罪

7球惨败擦亮伊万眼睛国脚说下半时实在太煎熬了

观察：不怕万一就怕伊万，国足0比7输日本创耻辱纪录，主教练就是木桶最短板

观察｜美官员称拟向乌提供隐身巡航导弹，将显著改变冲突格局？

多地探索按住房套内面积计价销售：“所见即所得”，避免公摊比例过大

乌克兰政坛地震，余震要到泽连斯基访美以后

40%算力训练效果比肩GPT-4，实测DeepMind联创大模型创业新成果

无需登录即可使用

DeepMind联创大模型创业

友情提示

谷歌安卓新修复46个安全漏洞 包括一个“零日漏洞”

早报：曝iPhone 16 9月10日发布 吉利银河E5正式上市

谷歌酝酿全新安卓天气应用：简洁设计，随 Pixel 9 系列手机亮相

外媒称谷歌Pixel 9 Pro Fold即便不涨价 也会推迟发布

意外之举？谷歌Pixel 9系列或搭载Android 14系统发布

谷歌新款 45W 充电器渲染图曝光，搭配 Pixel 9 系列手机使用

儿子月薪8000，偷偷给父母300，媳妇得知后将公婆扫地出门。

大爷这操作是真虎！黑龙江野生老虎进村完整视频！

传递爱国正能量，从我做起，刘老师好样的！

秦琼落魄到要卖马，开价50两被嘲笑，下秒竟有人白给他送钱

卢比奥或将担任美国国务卿，鹰派内阁上台，中美硬仗将无可避免？

化痰特别厉害的一味药，对咽喉也特别好，学会运用能治很多病

美总统之子亨特·拜登就9项税务指控罪名认罪

7球惨败擦亮伊万眼睛国脚说下半时实在太煎熬了

观察：不怕万一就怕伊万，国足0比7输日本创耻辱纪录，主教练就是木桶最短板

观察｜美官员称拟向乌提供隐身巡航导弹，将显著改变冲突格局？

多地探索按住房套内面积计价销售：“所见即所得”，避免公摊比例过大

乌克兰政坛地震，余震要到泽连斯基访美以后

谷歌安卓新修复46个安全漏洞包括一个“零日漏洞”

早报：曝iPhone 16 9月10日发布吉利银河E5正式上市

外媒称谷歌Pixel 9 Pro Fold即便不涨价也会推迟发布