主页 › 阅读 › 热点 › GPT-4o抢先测：文本能力提高，但仍存短板

GPT-4o抢先测：文本能力提高，但仍存短板

DoNews 发布于 11月前

89 0

撰文 | 曹双涛

编辑 | 杨博丞

题图 | 文心一格

北京时间5月14日凌晨，OpenAI推出兼具听、看、说能力的GPT-4o。

新版GPT-4o最大的看点在于，可实时对音频、视觉、文本进行推理，并接受三者的任意组合，最终能生成文本、音频、图像的任意组合。

如在现场演示视频中，OpenAI前沿研究负责人马克·陈在和GPT-4o对话时，当马克·陈稍微有些紧张时，GPT-4o很快进行安慰。当听到马克·陈话语有些急促时，GPT-4o对马克·陈说道，你不是吸尘器，吸气、然后数到四，让自己慢下来。

另一演示视频中，OpenAI后训练团队负责人巴雷特·佐夫让GPT-4o判断自我情绪如何。GPT-4o先是看到木质材面的桌子后又说道，你看起来非常开心，甚至还有点兴奋。

整个演示视频中，GPT-4o表现得如同老朋友那般亲切，甚至说话语气和“真人”一样，这让不少网友纷纷惊叹现在的大模型都有视觉功能了吗？它未来又是否能帮助盲人看世界呢？

为真正了解GPT-4o的能力，发布会结束后，DoNews对GPT-4o进行了多轮多角度测试：

图源：GPT-4o官网对话页面

在文本输出能力上，GPT-4o的能力可以完全用惊艳来形容。当我们让GPT-4o帮我们写中国传统神话四大神兽的故事时，GPT-4o几秒时间内就能完成，且内容准确度极高。

图源：GPT-4o官网对话页面

当我们将难度升级，让GPT-4o解读安克创新2024年Q1财报时，几秒的时间GPT-4o直接将安克创新长达15页的财报内容中核心数据全部提炼出来。

图源：GPT-4o官网对话页面

甚至当我们继续追问GPT-4o，您觉得安克创新2024年Q1财报存在哪些问题时，GPT-4o快速回答出包括经营活动现金流量净额大幅下降、销售费用和管理费用大幅增加、财务费用的波动、公允价值变动收益大幅下降、资产减值损失大幅增加、其他收益和投资收益减少等六大风险。

图源：GPT-4o官网对话页面

我们继续升级难度，要求GPT-4o帮我们翻译一篇长达35页的外文，虽说响应速度有所下降，但依然能快速提炼出这份报告的核心内容。

图源：GPT-4o官网对话页面

值得注意的是，发布会上提到的可对文本、音频、图像进行任意组合，目前暂未实现。

因此，我们指定一个命令：我有一个朋友目前处在失恋状态，请你帮我撰写800字的文章安慰他，帮他走出阴影，要求内容中同时具有图片和音频，GPT-4o回答为“我暂时无法直接创建包含图片和音频的文章”。

图源：GPT-4o官网对话页面

在大模型常见的问答上，GPT-4o已不做任何回答，而是全网检测和问题相近的网页。当我们在提问GPT-4o关于美联储降息问题时，GPT-4o给出2个相关网站链接。

图源：GPT-4o官网对话页面

当我们提问GPT-4o关于全球新能源汽车行业价格战相关问题时，GPT-4o更是给出6个相关网站链接。换言之，GPT-4o正朝着AI搜索工具类产品方向发展。周鸿祎也曾指出，未来OpenAI一定会诞生 AI 搜索类型的产品。

图源：GPT-4o官网对话页面

在图像识别和生成上，GPT-4o可以说是喜忧参半。我们在选取网络平台上一张同时包含多种人物表情的照片时，GPT-4o能准确描述出6个小照片下人物的内心活动。

图源：GPT-4o官网对话页面

但当我们让GPT-4o识别国内流行的AI黏土特效相关照片时，却被GPT-4o识别为手工雕塑作品。换言之，大模型若想始终竞争优越性，也需要不断反复学习，尤其是在各国不断流行的事物上。

图源：原图基于小红书网友分享整理、GPT-4o官网对话页面

且GPT-4o若想真正成为世界级的大模型，也需要深入学习各国文化才能保证生成的图片不会出错。

当我们让GPT-4o输出一张中国传统神话故事中青龙的照片时：在《山海经》中，唯一带翅膀的龙为应龙，青龙并不带翅膀，输出明显错误。

图源：GPT-4o官网对话页面

当我们将难度升级，要求GPT-4o输出一张同时包含中国传统神话故事中四大神兽的照片时，图片内容虽出现四大神兽，但除青龙稍微符合神话故事原型外，其他三大神兽均和神话故事中的原型相差极大。

图源：GPT-4o官网对话页面

至于发布会上，OpenAI高层们演示的功能，目前GPT-4o暂未上线。当我们让GPT-4o识别抖音上一条十几秒的生日祝福视频时，GPT-4o回答为暂无法直接听取识别音频或视频中的音乐。

图源：抖音视频截图

图源：GPT-4o官网对话页面

在后续的测试中，我们发现GPT-4o的能力远没有达到外界宣传的颠覆级、爆炸级。当我们让GPT-4o给我们写抽奖的代码和航班查询的代码时，GPT-4o一直没有输出结果。

图源：GPT-4o官网

在测试逻辑推理上，我们选取2023年全国卷数学高考真题中难度较大的压轴题时，GPT-4o给出的答案可以用失望来形容。

图源：2023年全国卷数学真题

如在全国高考卷第20题的两问中，GPT-4o仅是简单地给出不完整的解题步骤，没有输出任何一个准确答案。

图源：GPT-4o官网对话页面

第21题的三问中，GPT-4o不仅将三小问变成两小问，且前两问求概率的问题上，本应为具体数字的答案，在GPT-4o这里却是带有变量N的不确定答案。

图源：GPT-4o官网对话页面

GPT-4o发布会结束后，奥尔特曼指出，我真的可以预见到一个激动人心的未来：我们能够利用计算机完成以往无法想象的更多事务。但基于我们现在测试的能力来看，GPT-4o又到底能完成多少无法想象的事务呢？

创新工场董事长兼CEO、零一万物CEO李开复在接受媒体采访表示，零一万物的新模型Yi-XLarge MoE已训练一半，之后会朝着美国大模型继续进步；科大讯飞董事长刘庆峰曾透露，目前中美大模型差距在一年至1.5年左右。GPT-4o仍存在诸多短板需要补齐，历经一年多发展的国内大模型真实能力到底如何呢？

同时考虑到中美消费者和企业主，对软件付费意愿差异较大，未来国内大模型TOC端和TOB端大模型的商业化仍需持续探索，这就意味着国内大模型不管在国内市场，还是在海外市场，未来仍有很长很长的路要走。

路漫漫其修远兮，国内大模型厂商仍需上下而求索。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

#安克#

GPT-4o抢先测：文本能力提高，但仍存短板

友情提示

安克创新申请信道选择方法及电子设备专利，能够提升电子设备的通信效率

绿联科技上市首日大涨114.76%，中一签最高赚1.38万

南货航新开深圳-安克雷奇-芝加哥货运航线

博时恒鑫稳健一年持有混合A近一周下跌0.33%

露营经济带不动华宝新能

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

银行取钱：说出了全国人的心声,必须给这位女士点赞

世界富豪马斯克再次语出惊人，他说：“地球上未来发生最大的问题，就是人口崩溃，而不是人口过剩。”他严正警告：“AI的进化已进入‘失控倒计时’，5年内AI超越人类总

【男子花155万买迈巴赫跑网约车，称除去车贷月入近万元】据海报新闻报道，近期，北京一男子花155万买迈巴赫S480跑网约车，引起不少网友关注，袁先生也会将跑车日

#郭台铭：只要大陆敢打，我就敢送！

江苏南京，女子坐飞机，过安检时，她放行李进安检，然后接受女安检员对她的身体进行检查，不料女安检员突然掀起她的衣服，进行检查，女子非常生气，就要录下来，女安检员却

世界首富马斯克再次抛出惊人言论，振聋发聩！他坦言：“中国真的被低估了！中国并没有崛起，中国只是恢复了历史地位，自古就是第一强国，他们有很多聪明的头脑，会做出许多

【中美关税战正酣，中国突然换将，国际贸易谈判代表换人，信号不同寻常】就在中美关税战激烈交锋之际，中国突然临阵换将，更换国际贸易谈判代表为李成钢。从公开资料来看，