本文将主要介绍下大模型(LLM)如何融入到智能客服产品中从产品设计到技术实现(本文的智能客服仅包含该部分:智能对话机器人部分),以及英伟达给出的开源解决方案是什么。
2年前我写过一篇保险行业智能客服的调研,因为当时的AI还无法像现在的大模型一样理解大家的意图(文本+图片),所以原本智能对话机器人的实现不仅费时费力,且还没有一个很好的效果,导致“在智能对话机器人的部分,在晚上10:50我还测试了部分淘宝店家,发现一般比较小的店使用的还是人工,而像回力这种相对来说比较大的店铺也是机器人+人工一直在线,可能是目前智能对话机器人相对于人工对效益的影响只有在人力成本比较大的时候才有体现,或者需要较长的适应期,一般小企业等不了。”
但是最近我发现大模型给各领域的咨询和智能客服真的带来了天翻地覆的变化,具体有哪些变化将在后文中详细说明。
由于本人非专业做技术的,因此如果有什么有问题的,或者目前业界已经有了更加好的实现方式希望大家在评论区积极互动!
一、为什么需要用LLM重塑各行各业?
自从大型语言模型(LLM)问世以来,人们常将其对现代社会的影响与几十年前互联网对产业的革命性影响相提并论。本质上,利用LLM的过程可以被看作是各行各业的一场重塑。
然而,这种重塑并非孤立进行,而是紧密依赖于技术发展的成熟度。
技术进步在某个关键时刻可能会引发行业格局的颠覆性变化。举例来说,一些原本在技术(包括先前投入的人力资本积累和实际技术能力积累)上拥有壁垒的企业,可能会因为某项技术革新而使得其之前的优势瞬间减少。如果这些企业不能及时变革,就更容易被竞争对手超越。这也为小型和创业公司提供了赶超的机会。
由于目前TTS技术是一个在ai领域比较成熟的技术,因为我就以TTS技术的变革阶段来说明技术大框架的跃升给市场带来的变化:
首先技术跃升的节点说明:Tacotron 2是由谷歌在2017年12月20日发布的。这个系统是一个基于深度学习的端到端语音合成模型,它可以直接从文本生成类人语音。Tacotron 2结合了Tacotron和WaveNet的研究成果,使用神经网络从文本生成类人的语音,其中输入数据仅使用了语音样本和相关的文本记录。这个系统的发布标志着TTS领域的一次重大进步,它在语音合成的质量和自然度方面取得了显著的效果。
如下图所示,是百度TTS产品的发展流程:
从该发展流程可以看出,2017年学界的变化给工业界实现方案带来了直接的变化,且新的企业雨后春笋般的出来,老牌企业也不断投入且技术路线相对统一,下图所示是各大厂的工业部署pipeline:
21年各大厂商TTS技术工业部署pipleline,当时各个做TTS的产商都用的类似的模型和实现方式,一般实现差异化的话只能通过在各个模块进行微调,且微调的目标主要集中在5个方向上:fast、Low-Resource、Robust、Expressive、Adaptive
最后在来说下为什么说Tacotron的出现是TTS技术跃升的点,首先当时的模型可用了,其次行业实现成本有了很大的降低,以及从现在来看虽然目前TTS行业主流程的模型有了一定的变化,但是比如21年出现的端到端的VITS系列以及扩散模型在tts领域的应用,但是依然还是全量的深度学习模型,因此原本积累的数据基础还可以套用以及原本积累的部署经验和优化经验还是有延续的作用。
二、RAG重塑智能对话机器人
首先为什么选择在现在使用RAG重塑智能对话机器人?
- 应用范围广,盘子大,只要数据量够各个行业都可以用
- 技术方案明确:rag技术以及能更加便捷实现该技术的平台和框架(如langchain)网络上信息多
- 对某些特殊的行业确实可以取得显著的收益(如to c金融保险税务咨询等行业知识壁垒高的行业,TO B需要做项目1-N的行业等)
应用领域:
从一个人一生的发展来看智能对话机器人可以被应用在各个阶段:
出生
- 医疗健康:在医疗领域,智能对话机器人辅助医生进行诊断和治疗,提供患者教育和支持,管理预约和查询系统
上学
- 教育培训:智能对话机器人用于教育领域,提供学习辅导、教育咨询、学习资源推荐等服务,特别是在线教育和培训机构
日常生活
- 电子商务:智能对话机器人用于电商平台的售前咨询和售后服务,帮助用户进行产品查询、订单处理等
- 生活服务:在生活服务领域,智能对话机器人提供如旅游咨询、酒店预订、物流跟踪等服务,满足用户日常生活需求
工作
- 企业服务:智能对话机器人还被用于企业服务,如客户关系管理(CRM)、销售支持、市场调研、企业内部员工咨询群等
- 金融行业:在金融领域,智能对话机器人用于处理客户咨询,如银行业务、保险咨询、证券服务等,提供个性化的服务和建议
- 政务领域:智能对话机器人用于提高政务办公效率,提供信息查询、政策咨询等服务,助力智慧政务的发展
三、为什么需要RAG,RAG是什么?
1. 为什么需要这样引入新的技术?不使用LLM的自动回复系统:现有的自动回复系统存在的问题是关键词匹配的局限性,这种方法虽然简单高效,但缺乏对上下文的理解和语义分析,容易造成匹配错误,比如登录 VS登陆就无法识别。如下是2年前智能对话机器人主要使用的技术:
如果直接使用大模型存在以下主要的问题:
- 知识的局限性:知识更新缓慢和答案缺乏透明度。模型自身的知识完全源于它的训练数据,而现有的主流大模型(ChatGPT、文心一言、通义千问…)的训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或离线的数据是无法获取到的,这部分知识也就无从具备。
- 幻觉问题:所有的AI模型的底层原理都是基于数学概率,其模型输出实质上是一系列数值运算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的,因为它要求使用者自身具备相应领域的知识。
- 数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。
使用RAG技术后:
- 准确性提高:RAG通过与外部知识相关联的答案来提高准确性,减少语言模型中的幻觉问题,使生成的响应更准确、可靠。
- 保持信息的时效性和准确性:与传统只依赖训练数据的语言模型相比,RAG可以识别最新信息,保持响应的时效性和准确性。
- 透明度:RAG通过引用来源提高答案的透明度,增加用户对模型输出的信任。
- 定制化能力:RAG可以通过索引相关文本语料库来定制不同领域的模型,为特定领域提供知识支持。
- 安全性和隐私管理:RAG在数据库中内置了角色和安全控制,可以更好地控制数据使用。
RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了检索和生成技术的人工智能系统。它是大型语言模型的一种,但特别强调检索和生成的结合。RAG的最主要的工作流程包括:
- 检索阶段:系统会根据用户的查询,从知识库中检索出相关信息。这些信息可能包括文章、网页、数据库条目等。
- 生成阶段:RAG使用检索到的信息来增强其生成过程。这意味着,生成模型在生成文本时,会考虑到检索到的相关信息,以生成更准确、更相关的回答。你可以直接将搜索到的返回给用户也可以通过LLM结合后生成给用户。如下图所示是一个基础的RAG模型:
四、如何在实际业务中使用该技术?
1. 产品构思需求业务背景:
有一家税务咨询公司,有一定的历史因此有很多的数据。最近业务扩张快,因此招聘了一批有一定税务基础的咨询人员,但是在实际的工作中发现这些员工能力参差不齐,且即使有些人能力出众,但是因为税务法规在不同的地区要求不同、国家为了更好的发展,每年会提出各种税务概要要求,如2023年中国的税务改革主要集中在深化税收征管改革和优化税费政策上,还有社会上行业众多,因此导致有些领域招聘的人不熟悉,没有办法给客户的问题提出一个好的建议。
如何解决:
为此期望借助公司历史积累的数据以及收集到的每年税务变革资料和各地税务法律法规给自家的客服系统接入智能问答机器人,方便税务咨询老师可以在不太明确时可以问智能问答机器人。且目前大模型对对话的了解能力确实有所提升因此想要用大模型来进行构建,但是在构建智能回答机器人的同时还需要注意些业务上的逻辑:
- 回答的准确率,不希望机器人回答非公司提供数据之外的答案,机器人可以回答不知道。
- 机器人不知道的问题和后面老师针对这个问题的回答需要收集起来,便于数据库的更新
- 为了保证税务行业的安全,对LLM输出的答案需要检测是否合规,因为按照产品后续规划想将该能力单独卖给部分企业和个人进行使用
- 税务行业位置因此很重要,因此需要将位置作为一个特征分别查询不同数据来源
理想态测算指标:
毕竟这是个长远的事情因此需要设计各种指标对该产品的效果以及商业化前景等内容进行监督:
1)效率和用户体验相关指标(实际使用中需要关注的指标:包含直接用户税务咨询老师和间接用户客户)
- 响应时间:机器人回答问题的平均时间,反映系统的响应速度。
- 用户满意度:通过调查问卷或用户反馈来衡量使用机器人前后客户以及老师对咨询体验的满意程度。
- 问题解决率:机器人能够正确回答的问题占总提问的比例。
- 老师回答效率的提升:所有老师平均每月回答问题数量同比和环比变化
2)准确度和性能相关指标(训练的时候需要关注的指标,后续实际使用的时候可以抽样获取)
- 准确率:机器人回答正确的次数与总回答次数的比例。
- 召回率:在所有应该被机器人正确回答的问题中,实际上被正确回答的比例。(召回率特别重要,当关注的重点是确保所有正例都被识别出来时,例如在疾病筛查或欺诈检测中,遗漏一个正例的代价可能非常高。)
- F1 分数:准确率和召回率的调和平均值,综合反映模型的准确性和全面性。
- 答案相关性:这个指标强调生成的答案需要与提出的问题直接相关。
- 忠实度:这个指标强调模型生成的答案必须保持对给定上下文的忠实,确保答案与上下文信息一致,不偏离或矛盾。这方面的评估对于解决大型模型中的幻觉问题至关重要
3)数据和知识库相关指标(由于这是一个长期的产品,因此需要不断的修改知识库以及规范知识库的书写方式便于训练,因此该指标主要针对数据管理流程中的相关人员)
- 知识库覆盖率:机器人知识库中包含的信息占所有可能相关信息的比例。
- 知识更新频率:知识库更新的频率,反映机器人对新信息的适应能力。
4)商业收益相关指标(实际使用中,以及决策是否需要长期使用以及将该产品推广大更大的场景需要的决策指标)
- 成本节约:通过机器人回答问题减少的人力成本。同样的咨询量情况下,需要的税务老师成本为多少
- 收入增加:由于服务效率提升带来的额外咨询业务或产品销售。
- 客户留存率:使用机器人服务后,客户的留存率变化。
- 市场份额:产品推出后,公司在税务咨询市场的份额变化。
5)安全和合规性指标(由于领域要求,因此需要注意数据敏感性问题)
- 合规性检测通过率:机器人回答被判定为合规的比例。
- 数据泄露风险:评估机器人处理数据时可能的数据泄露风险。
6)技术和维护相关指标(为了后续直接给个人和企业使用需要关注系统稳定性)
- 系统稳定性:机器人系统的正常运行时间与总时间的比例。
- 维护成本:维护和升级机器人系统的平均成本。
- 模型训练+知识库维护总成本:因为后续需要对产品定价以及是否要延续该产品和扩张该产品进行决策
以上指标具体需要怎样的目标可以结合实际场景和原本的数据结果进行规划。
目前的这个解决方案有什么收益和成本?
- 公司内部数据乱象可以借由该产品的规划进行调整:原本公司的数据散落在各个平台上,如钉钉、飞书、wiki等各类工具上,导致有时候需要查询一个内容需要去到多个工具,且不同的工具搜索机制不同,常常有搜索不出想要的答案的情况,且搜索的时间很长,很多返回的结果没有按照期望的反馈,需要进行人工筛选
- 更高效的提升税务老师的咨询能力范围,有了税务咨询小助手,老师即使不了解当地税法也可以快速将个人知识和税务咨询小助手的回答结合回答问题
- 对公司来说可以通过更低的人力成本产出同样效果的咨询结果
- 从长远的角度看本次整理的数据以及构建税务咨询小助手,可以用于后续税务知识学习软件的构建,以及税务咨询小助手可以单独作为一个产品卖给企业和个人用户
- 最后除了收益之外就是成本问题:模型训练+知识库维护总成本:因为后续需要对产品定价以及是否要延续该产品和扩张该产品进行决策
架构图:
实际开发中需要注意的点?
如何搭建整体和RAG相关框架:
总之,选择什么样的实现方式需要综合考虑。
- 技术能力:如果您的团队在机器学习和自然语言处理方面有较强的技术能力,自研模型可能是一个好选择。
- 资源与时间:如果资源有限或希望快速推出产品,使用Langchain框架或现有LLM平台可能更合适。
- 定制化需求:考虑税务咨询机器人的特定需求,是否需要高度定制化。
举个例子,初期可以使用Langchain框架或现有平台快速搭建原型,随着项目的深入,再逐步引入自研模型以优化性能。这样的混合方法可以平衡开发速度和模型的定制化需求。
具体使用什么LLM、embedding模型?
需要根据你的成本和想要实现的效果做权衡,目前有很多开源模型(如GPT-3、BERT)或商业模型(如阿里云、腾讯云提供的模型)供我们选择,可以多试几个最后看下前面我们提到的各类目标指标是否符合期待。
按照业务需求设计对应的业务逻辑模块?
回到最初的产品设计,还是需要提醒下你的业务需求是什么,比如由于我们这个系统需要给多方接入因此需要做鉴权,和数据权限控制,以及后续要开放给企业和个人直接使用以及需要计算项目成本和收益,因此存在计费模块等。
3. 研发第一步:数据管理
数据准备阶段:数据清洗–>数据提取–>文本格式转换–>文本分割–>向量化(embedding)–>数据入库
数据管理为了更好的进行embedding以及让大模型更好的理解我们的知识,对数据的处理就需要注意下,因为有一个好的干净的数据才能保证问答系统的准确率和召回率等指标。
数据整理时需要注意的点:
第二步:模型设计研究和开发
如今LLM应用技术栈中的模型(例如GPT-4)就相当于其中的CPU,开发框架(例如LangChain或Dify)则相当于主板,而内存、向量存储、插件就好比主板上的各种I/O设施。正如组装计算机一样,开发者在构建LLM应用时也需理解、精心挑选和配置每个组件。
第三步:按照测试结果对模型进行调优
虽然rag整体来说是一个比较好的技术,但是前文讲到的基础RAG模型还存在很多问题因此在实际使用中还需要结合实际业务场景和需求进行微调。
该技术可以通过微调来提升各方面的性能指标,以下仅举例几个实际使用中常见的问题,来详细阐述如何微调模型使其符合业务要求:
以上如果都进行调整后原始的rag技术架构会变为如下图所示:
第四步:部署
第五步:根据实际使用结果对模型进行不断调优
可结合理想态指标按照第三步的方法进行优化模型,或者通过添加交互和逻辑判断来完善用户体验。
4. 案例【NVIDIA大模型结合 RAG 构建客服场景自动问答系统】NVIDIA提供了如下的RAG优化后的模型,其架构如下图所示:
以及在对原始RAG架构进行调整后模型效果有了怎样的提升:
如果你的项目也想要用该模型的话可以前往对应的地址,该地址可以通过文末的参考内容进行逐步查找。
五、在本文之外的思考-LLM vs 互联网:
AI大模型的出现对商业的影响确实可以与几十年前互联网的出现相类比,尽管它们在技术和应用上存在一些差异。以下是一些相似之处和不同之点:
相似之处:- 信息传播和访问:互联网的出现极大地降低了信息传播的成本,使得全球范围内的信息共享成为可能。类似地,AI大模型能够处理和分析大量数据,提供智能化的信息检索和生成,进一步改变了信息的获取和传播方式。
- 创新和变革:互联网催生了全新的商业模式和行业,如电子商务、社交媒体、在线广告等。AI大模型也在推动各行各业的创新,例如在医疗、金融、教育、制造业等领域。
- 工作效率提升:互联网通过电子邮件、在线协作工具等方式提高了工作效率。AI大模型则通过自动化处理复杂任务、提供决策支持等方式,进一步提升了工作效率和质量。
- 技术本质:互联网更多地是一种基础设施,而AI大模型是一种智能化的工具和服务。AI大模型能够进行推理、学习和预测,而互联网则是一个信息传输的平台。
- 应用范围:互联网的影响几乎遍及所有行业和日常生活,而AI大模型的应用虽然广泛,但主要集中在数据处理、分析和决策支持等领域。
- 社会影响:互联网对社会的影响更为直接和广泛,包括信息获取、沟通方式、娱乐等。AI大模型的影响则更多地体现在工作效率提升、决策质量改善等方面。
- 发展阶段:互联网已经经历了数十年发展,其商业模式和应用相对成熟。相比之下,AI大模型仍处于快速发展阶段,其商业模式和应用场景仍在探索和成熟中。就拿目前中国的各种LLM商业化来说却是还处在探索阶段没有很有突破性的产品出现,更多的是LLM模型平台、优化智能客服、优化推荐算法、面向企业的LLM解决方案以及自己构建LLM等。所有的产品形态还是原先互联网行业普遍存在的没有什么新意。不过看了以上的文档也发现现在公司要使用LLM来提升在特定流程中的效率也变得越来越简单。
所以最后还是期待下AI、LLM可以给世界带来像科幻电影一样的新意,如果我有幸参与到了这样的产品和技术的变革之中,真的是荣幸之至!
参考内容:TTS:
1.2020-CCF语音对话与听觉专业组会议(主办单位:中国计算机学会 |B站:BV1ST4y1F7mg)
智能对话机器人:
RAG:
LLM产品:
《The AI Product Manager’s Handbook》
文章辅助撰写:
智谱清言
本文由 @4T 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com