[发明专利]基于拼音的语义识别方法、装置以及人机对话系统在审
申请号: | 201810354766.8 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108549637A | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 李英杰 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G10L15/26 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;李峥 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 语义 拼音 拼音序列 输出向量 语义识别 参考 人机对话系统 词向量 向量 方法和装置 模型获得 神经网络 嵌入 响应 | ||
1.一种语义识别方法,包括:
获得待识别语句中的词的拼音序列;
使用词嵌入模型获得所述拼音序列中的每个拼音片段的词向量;
将所述拼音序列中的每个拼音片段的词向量组合成为所述待识别语句的句向量;
将所述待识别语句的句向量输入到神经网络,获得所述待识别语句的输出向量;
通过比较所述待识别语句的输出向量与参考语句的输出向量来识别所述待识别语句与所述参考语句是否在语义上相似;以及
响应于识别所述待识别语句与所述参考语句在语义上相似,将所述参考语句的语义作为所述待识别语句的语义。
2.根据权利要求1所述的方法,其中,
所述拼音序列中的每个拼音片段为所述拼音序列中对应于所述待识别语句中的每个词的拼音片段。
3.根据权利要求1所述的方法,还包括:
将所述拼音序列中对应于所述待识别语句中的每个词的拼音片段拆分为声母和韵母,作为所述拼音序列中的拼音片段。
4.根据权利要求1所述的方法,其中,所述通过比较所述待识别语句的输出向量与参考语句的输出向量来识别所述待识别语句与所述参考语句是否在语义上相似包括:
计算所述待识别语句的输出向量与所述参考语句的输出向量之间的距离;
当所述距离小于阈值时,识别所述待识别语句与所述参考语句语义上相似。
5.根据权利要求1所述的方法,还包括:
使用第一训练数据训练所述词嵌入模型,其中,所述第一训练数据包括多个训练语句中的词的拼音序列。
6.根据权利要求1所述的方法,还包括:
获得至少一组语义相似的训练语句中的每个训练语句中的词的拼音序列;
使用所述词嵌入模型获得所述每个训练语句中的词的拼音序列中的每个拼音片段的词向量;
将所述每个训练语句中的词的拼音序列中的每个拼音片段的词向量组合成为所述每个训练语句的句向量;以及
使用所述每个训练语句的句向量训练所述神经网络。
7.根据权利要求1所述的方法,其中,所述获得待识别语句中的词的拼音序列包括:
获得用户通过拼音输入法输入的待识别语句中的词的拼音序列。
8.根据权利要求1所述的方法,其中,所述获得待识别语句中的词的拼音序列包括:
获得用户发出的待识别语句的语音信息;
对所述语音信息进行语音识别,获得对应于所述语音信息的文本信息;
将所述文本信息转换为所述待识别语句中的词的拼音序列。
9.一种语义识别装置,包括:
拼音序列获得模块,其被配置为获得待识别语句中的词的拼音序列;
词嵌入模块,其被配置为使用词嵌入模型获得所述拼音序列中的每个拼音片段的词向量;
句向量获得模块,其被配置为将所述拼音序列中的每个拼音片段的词向量组合成为所述待识别语句的句向量;
神经网络模块,其被配置为将所述待识别语句的句向量输入到神经网络,获得所述待识别语句的输出向量;以及
语义识别模块,其被配置为通过比较所述待识别语句的输出向量与参考语句的输出向量来识别所述待识别语句与所述参考语句是否在语义上相似,以及响应于识别所述待识别语句与所述参考语句在语义上相似,将所述参考语句的语义作为所述待识别语句的语义。
10.根据权利要求9所述的装置,其中,
所述拼音序列中的每个拼音片段为所述拼音序列中对应于所述待识别语句中的每个词的拼音片段。
11.根据权利要求9所述的装置,还包括:
拆分模块,其被配置为将所述拼音序列中对应于所述待识别语句中的每个词的拼音片段拆分为声母和韵母,作为所述拼音序列中的拼音片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810354766.8/1.html,转载请声明来源钻瓜专利网。