[发明专利]一种获取多轮语音通话最大可能意图的方法和智能设备在审
申请号: | 201811608701.8 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109461440A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 邓从健;江晓锋;朱栩 | 申请(专利权)人: | 广州云趣信息科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/22;G10L15/26;G10L25/24;G10L25/45 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 徐东峰 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能设备 语音通话 最大可能 多轮 用户意图 转写 高效获取 连续语音 算法模型 业务参数 业务场景 意图识别 用户语音 语音特征 短语音 文本流 最优解 截断 槽位 引擎 语音 采集 文本 协商 优化 学习 | ||
1.一种获取多轮语音通话最大可能意图的方法和智能设备,其特征在于,所述方法包括:
步骤1:智能设备采集语音,并对语音进行编码,得到编码后的连续语音数据流,根据语音特征断句算法把连续语音流截断为有序的短语音流;
步骤2:利用语音转写引擎,短语音流转换为文本流,文本流作为意图识别的输入计算出状态-意图以及状态-意图概率;
步骤3:状态-意图概率如果大于约定值,则该状态为最大可能意图;
步骤4:如果状态概率如果小于约定值,就循环步骤1-3,计算每一轮次状态-意图概率,直到该概率大于约定值。
2.根据权利要求1所述的语音特征断句算法,其特征在于:使用有效时长、单位时长语音能量值、单位时长过零率和频谱特征,计算语音特征,把等到的语音特征跟预设的断句语音特征比较,如果两者相符就认为符合断句条件。
3.根据权利要求2所述的语音特征,其特征在于:语音特征是一个包含16个元素的一维数组,前面三个分别是语音的有效时长、单位时长语音能量值、单位时长过零率,后面13个是通过梅尔频率倒谱系数计算得到的前13个低频分量。
4.根据权利要求1所述状态-意图,其特征在于:每一轮次通话定义为一个状态,状态的输入是文本流,每个状态的输出只能是-1、0和1其中之一,状态输出的概率就是状态-意图概率。
5.根据权利要求1和权利要求4所述的状态-意图概率,其特征在于:
a)N个意图状态,使用Q=q1q2…qNQ=q1q2…qN来表示;
b)转移概率矩阵An×n={aij},i,j∈{1,2,…,N},其中aijaij表示从状态ii转移到状态jj的概率;
c)T个观测结果的序列,用O=o1o2…oT来表示;
d)一系列生成概率,记作B={bi(ot)},i∈{1,2,…,N},t∈{1,2,…,T},表示状态ii产生观测结果ot的概率。
e)状态-意图概率为:
P(O,Q|λ)=∏i=1TP(oi|qi)×P(qi|qi-1);
状态-意图概率算法通过存储中间的临时变量(概率)到一系列中间变量αt(j)αt(j)来简化计算,其表示在获得最初t个观测值o1,…,oto1,…,ot后,处于状态jj的概率。对所有到达状态jj的序列进行求和,那么如果利用αt(j)αt(j)的递推特性,我们可以得到下边的表达式:αt(j)=∑i=1Nαt-1(i)×aij×bj(ot);
在第t轮通话已经获得了在最初t-1个观测值o1,…,ot-1o1,…,ot-1后,处于状态i的概率αt-1(i),那么利用转移概率矩阵和生成概率矩阵的值,我们便可以得到从状态i转移到状态j并生成观测值ot的概率,最后对所有可能的状态i求和排序,便得到我们需要的αt(j)。
6.根据权利要求1所述所述的状态值,其特征在于:采用对称三进制运算,每个状态的值只可能是-1,0,1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州云趣信息科技有限公司,未经广州云趣信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811608701.8/1.html,转载请声明来源钻瓜专利网。