通信世界网消息(CWW)大模型产业的火热发展催生了新型人机交互模式,其核心是大模型驱动的智能体——AI助理。本文展现了智能体交互是继图形界面、触摸屏手势之后,大模型时代的新型交互范式。智能体交互模式和应用场景是未来大模型产业竞争的关键要素,决定了其能否真正成为用户所需要的,是关系大模型产业成败的重要因素。

智能体交互衍生出一系列模式,并开辟了众多充满潜力的全新应用场景。智能体交互发展的核心驱动力是智能体带来了新增能力、能力复制(拟人、类人、超人)、能力迁移、智慧汇集和能力倍增,带来了促进创新、拓展能力边界、实现能力的指数级提升、减少重复劳动以及满足人类多样化需求等重要价值。智能体交互正逐渐成为现代社会发展的关键驱动力。

新型人机交互的核心是大模型驱动的智能体

新一代AI技术的快速发展,特别是大模型的应用,正在推动人机交互范式的创新和变革。AIPin、RabbitR1、Astra、AppleIntelligence等新型AI终端和操作系统的出现,带来了“一个指令完成所有操作”的AI助理等新型人机交互形式,不再需要点击APP来达成自己所需的功能。这些将对OS-APP等一系列生态产生重大影响,“将产生新的超级入口”“NoAPP时代将到来”“将颠覆手机、PC操作系统”。

2023年11月,初创公司HumaneAI发布AIPin。AIPin是一款无屏幕的可穿戴设备,通过语音、触摸、手势和激光投射等多模态交互方式,为用户提供信息和服务。基于GPT-4大模型,Humane还打造了AI助理AIMic,旨在提供无缝、直观且个性化的用户体验。用户可以通过AIMic使用各类功能,而不再需要传统意义的APP。2024年1月,RabbitR1亮相,其作为用户的AI助理,旨在将用户从繁琐的任务中解放出来,用户只需输入相应的语音指令,RabbitR1便会理解并立刻执行。2024年5月,Google推出的多模态AI助理Astra,将AI助理的响应时间降低到人类对话水平,能实时回答用户基于周围环境的提问。2024年6月,苹果围绕AI功能发布了“苹果智能”(AppleIntelligence),该AI系统适用于iPhone、iPad和Mac等设备,通过AI能力将Siri变成一个真正跨应用的自然语言交互的AI助手。

这些智能体都在AI助理的范畴之内,是一种新型人机交互模式,虽然当下性能不尽理想,但随着大模型以及相关技术的发展,在未来其意图理解、任务规划、动作规划、评价等能力将得到提升,系统的交互自然度、直观性和操作效率也将同步提升,同时系统的能力范围得以扩展。

大模型必将催生新型人机交互范式

人机交互的历史是一个不断演进和革新的过程,从小型机时代、PC时代、互联网时代到移动互联网时代,交互范式也从早期命令行、图形界面,发展到如今的触摸屏手势等,每一步都极大地提升了人机系统交互的效率、促进了科技水平的进步。大模型时代必然出现与之匹配的新型人机交互范式,也将推动产出大量的硬核科技成果、衍生出“杀手级”应用。新型交互范式和应用场景是未来大模型产业竞争的关键,决定了大模型能否真正被用户所需要和被广泛应用,也就是该大模型能否取得成功。

人机交互范式将不再局限于传统的输入、输出方式,而是通过更加智能和自适应的方式,实现个性化和情境化的交互,使得机器具备类人、超人的认知和行动能力,为人机、机机协作创造新的可能性。交互的达成将不再依赖于传统的界面,而是通过语音、姿势、表情、唇语甚至是思维等方式来实现,使得机器能够更好地适应人类的需求和习惯。新型交互不仅能提升用户和系统的效率、交互的自然性,还可以向用户提供情绪价值。

大模型驱动的人机交互范式创新正在引领一场技术革命,将深刻影响我们的工作方式、生活方式乃至思维方式。

智能体交互是决定大模型应用成败的关键

在近期涌现出的基于大模型的新型人机交互方式中,智能体交互无疑是最亮眼的,而AI助理是智能体的一种类型。

智能体是指具备自主性且能在特定环境中感知信息、作出决策并执行的系统。智能体能模拟人类的认知过程,以实现自主决策和行动。实体的智能体有机器人、智能家电、智能物联网设备等,虚拟的智能体有AI助理、数字人、客服机器人等。

智能体包含五大模块:感知单元(传感器)、处理单元(运算器)、存储单元(存储器)、通信单元(传输器)、行动执行单元(执行器)。智能体执行任务的流程与人类相似,一般为“目的-计划-实施-评价”。智能体通过上述些模块与人类、其他智能体和环境进行交互。

大模型积累了海量的“陈述性知识”,并且在规模、复杂性处理、上下文理解、多任务学习、生成能力、知识整合和自我监督学习等方面,比早期的AI能力有显著提升,从而增强了推理“程序性知识”的能力,让大模型在处理复杂问题、提供智能服务方面具有显著优势。未来,智能体的感知、推理、认知、学习、创造性和生成、情感理解和表达、社交等能力将不断增强,并最终具备类人和超人的能力。如在感知环节,大模型将图像和语音信息转换为文本,使智能体能够感知并理解代码和函数;在意图确定环节,通过与用户的多轮沟通,智能体可利用提示技术明确用户的真实意图;在任务规划环节,大模型指导智能体制定任务规划策略;在决策环节,当面临选择时,大模型帮助智能体进行风险评估和路径选择;在行动执行环节,智能体根据大模型的指导执行具体动作,包括选择执行器、确定执行方式和强度等;在评价环节,任务完成后,大模型对执行过程进行评价,并提出优化建议。

智能体也有助于大模型输出质量的提升,经特征强化的“专才智能体”的输出质量要高于“通才智能体”;同时智能体对执行效果的评价和反馈,也有助于提升大模型输出的准确率。

当下,智能体交互技术之所以火热,是因为大模型智能体带来了新驱动力,即带来了能力复制(拟人、类人、超人)、能力迁移、智慧汇集和能力倍增。这也将推动智能体交互成为未来重要的交互范式。其核心驱动力是智能体。大模型时代智能体的重要特征包括:丰富的能力和功能模块;快速地模拟和试错,从而进行推理和决策;能够通过通信和记忆实现智能体之间的信息共享;能变换成不同特征的角色,突出和强化某些特征,模拟更多可能(更多智能体之间的协作),突破能力边界;经过协作和组合创新出更多的功能;通过与用户或其他智能体的交互,快速地理解需求,评估结果并进行优化,提升输出质量。

这些特质使得智能体交互具备以下四方面价值:一是提升系统效率;二是增强用户体验,提供类人的情感价值,增加陪伴,减少孤独感;三是实现更高级别的自主化和智能化,减轻人类的思维和体力负担,服务人类“取巧”的天性;四是创造全新的体验,扩展人类能力,甚至实现“超能力替身”,完成以往不可能完成的任务。

基于这些特征和价值,智能体交互将成为大模型时代人机交互的新范式,而智能体交互的实际应用效果将成为大模型时代产业竞争成败的关键。

智能体的新型交互方式和应用场景

智能体交互技术的不断发展,推动了一系列创新交互模式(如表1所示)的诞生。例如智能体与人的相互关系形成了陪伴型、融入型、替身型、交互型等人与智能体、智能体与智能体。这些新兴的交互方式将催生众多应用场景,为人类社会发展带来广泛而深远的影响。

总结

智能体交互是继图形界面、触摸屏手势之后,在大模型时代出现的新型交互范式,它具备多种极具发展前景的交互模式和应用场景。

新型智能体交互带来的核心价值是促进创新、拓展能力边界、实现能力的指数级叠加、减少重复劳动以及满足人类多样化需求。它正逐渐成为现代社会发展的关键驱动力,是关系大模型时代竞争成败的重要因素。

智能体交互在现代化社会中具有重要作用,不仅改善了个人与组织的运作方式,还推动了技术和社会进步。随着技术的发展,智能体交互的价值将进一步扩展,为人类带来更多的便利和可能性。

*本文刊载于《通信世界》总第946期

2024年6月25日 第12 期

原文标题:智能体交互成新型人机交互范式

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com