AI外呼机器人技术及应用介绍

任光彬 · 发表于水下机器人&ROV&AUV&UUV 2022-12-17 13:13:30

背景介绍

智能语音作为AI平台性技术，亦是AI重要入口，向下可实现AI底层运算能力调用，向上则与应用场景融合。当前智能语音已在个人用户领域，以及金融、医疗、教育、智能家具等行业市场得到广泛应用，可承担在线客服、电子病历转录、个人助理等功能，推动人机交互，显著提升业务效率。

作为智能语音与电话平台技术相结合的AI外呼机器人，亦在传统外呼客服的相关行业中备受关注。随着我国经济的高速发展，人力、场地设备等成本不断上涨，传统外呼客服的竞争压力越来越大，大量重复且机械的工作占据了客服的绝大多数时间，复杂案例则变得无暇顾及。

AI外呼机器人因此应运而生，其可协助客服完成重复任务，提升外呼效率，从而解放出更多人力来处理更为复杂的案例，最终有效提升客户满意度。

1. 整体概述

AI外呼机器人的实现，涉及多方面的技术，既有传统的电话平台技术(PBX、IVR、VOIP)，亦有智能语音技术(ASR、TTS)，同时也包括了自然语言理解技术(NLU)和对话策略(DM)，其大致关系如下：

客户在接通AI外呼通话后，AI外呼机器人会根据对话策略选择对应话术，通过TTS技术转化成语音播报给用户，用户进行回应后，通过ASR技术识别成文字，机器人对文字进行语义理解后，根据知识图谱及对话策略，再选择应对话术。最终在通话结束后，根据通话记录对客户进行意图分析，得出呼叫结果。

2. ASR语音识别

ASR作为AI外呼机器人的入口，将用户的回答由音频信号转换为文字，其准确度较大程度地影响着语义的理解。ASR目前已有较长发展历史，其基本原理如下：

通过语音激活检测后，截取有效片段，对音频信号进行预处理后，提取语音特征语音特征通过声学模型获取音素音素，再通过语言模型，还原成符合语言规则的文本

得益于技术革新及神经网络模型的应用，其识别准确率已经达到较高的程度，但专业领域、口音、环境杂音、断句等因素仍影响着准确率的提升，未来还需要不断地优化与发展。

3. NLP语义理解

语义理解是AI外呼机器人中重要的组成部分，其主要功能是根据用户的回答预测出用户的意图。语义理解的准确性直接影响AI外呼机器人的用户体验，其基本处理流程如下图所示：

经过语义处理后能够得到用户的意图，对话策略利用该意图返回正确话术。当然，本文只谈到语义识别处理的过程，实际上，为了保证语义识别的准确性，在识别调用前后还需要大量的工作：

根据业务场景大量地收集并正确标注语料根据语料进行模型训练及持续调优、验证业务场景上线后需要持续收集并标注语料迭代识别模型

此外，语义理解在实际应用中，也面临着需要AI侧与业务方持续地讨论、沟通、调整才能解决的两大难题：

意图语料数量不足意图歧义问题，所谓意图歧义是指相似语义的用户回答却属于不同的意图

4. DM对话策略

DM，是AI外呼机器人中比较重要的一环，同时也是与业务结合最紧密的，可以等同于机器人的逻辑思维，帮助在分析语义后作出应答，引导着整个对话的流向。关于对话策略，我们根据对话场景进行了扫描，得出整个对话的大致结构：

5.TTS语音合成

TTS作为AI外呼机器人的输出口，将应答文字转换成语音，是用户得到的直接结果。因此，自然、真实、符合业务场景的TTS，才能让机器人更好地处理业务。

而一般来说，TTS转换过程经过前端系统和后端系统，前端负责把输入的文本转化为一个中间结果，然后把这个中间结果送给后端，由后端生成声音。

前端系统：在经过文本结构分析、文本正则、文本转音素、韵律预测的处理后，生成“语言学规格书”，以供后端发声。后端系统：在拿到“语言学规格书”后，通过声学模型提取音频特征，尽量还原符合这个规格书里描述的声音。

小结

AI外呼机器人涉及多种人工智能技术，得益于AI理论及技术的日益发展，其逐渐能够胜任部分业务电话场景的工作。但同时，AI外呼机器人如何更好地赋能金融及保险业务，这仍是寿险AI不懈探索的方向。

也许某一天，我们会在接电话时意识不到是机器人在为我们服务，而能够与其流畅、自然地进行对话，未来可期。