[发明专利]语义识别方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202011211479.5 | 申请日: | 2020-11-03 |
公开(公告)号: | CN113408292A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 王明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/33 |
代理公司: | 深圳市智圈知识产权代理事务所(普通合伙) 44351 | 代理人: | 韩绍君 |
地址: | 518064 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 识别 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种语义识别方法,其特征在于,所述方法包括:
获取待识别文本;
根据所述待识别文本在标注文本索引库中获取候选文本集合;所述标注文本索引库包括多个具有语义标注信息的标注文本;
在所述候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本;
根据目标文本对应的语义标注信息标注所述待识别文本,获得语义标注结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述语义标注结果获得待识别文本的语义识别结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本在标注文本索引库中获取候选文本集合;所述标注文本索引库包括多个具有语义标注信息的标注文本,包括:
以待识别文本做为索引在标注文本索引库中检索获得倒排表;
根据与待识别文本的相似度大小对倒排表中的标注文本进行排序;
将相似度大于预设相似度的标注文本作为候选文本集合。
4.根据权利要求3所述的方法,其特征在于,所述将相似度大于预设相似度的标注文本作为候选文本集合包括:
按照相似度从大到小的顺序依次将相似度大于预设相似度的标注文本加入候选文本集合,所述候选文本集合中相似文本的数量不超过预设数量。
5.根据权利要求1所述的方法,其特征在于,所述标注文本索引库包括多个标注文本,
所述标注文本由预处理文本通过索引格式转换获得;
所述预处理文本由标注有槽位信息的标注语料通过预处理获得。
6.根据权利要求1所述的方法,其特征在于,所述在所述候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本,包括:
获取待识别文本的第一特征向量表示;
获取候选文本集合中标注文本的第二特征向量表示;
将所述第一特征向量表示和所述第二特征向量表示输入训练后的文本匹配模型中,获得与所述待识别文本最匹配的标注文本作为目标文本。
7.根据权利要求6所述的方法,其特征在于,所述获取待识别文本的第一特征向量表示,包括:
将所述待识别文本进行分词处理,获得待识别文本的词向量;
通过对待识别语句的词向量进行平均词向量处理,获得待识别文本的句向量。
8.根据权利要求6所述的方法,其特征在于,所述获取候选文本集合中标注文本的第二特征向量表示,包括:
将候选文本集合中标注文本进行分词处理,获得标注文本的词向量;
通过对标注文本的词向量进行平均词向量处理,获得标注文本的句向量。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当出现坏例响应时,获取坏例对应的待识别文本;
对待识别文本进行语义标注;
将所述坏例对应的待识别文本和对应的语义标注信息加入标注文本索引库以更新标注文本索引库。
10.根据权利要求1所述的方法,其特征在于,所述根据目标文本对应的语义标注信息标注所述待识别文本,获得语义标注结果,包括:
根据目标文本的语义标注信息获得目标文本每个词对应的槽位;
将待识别文本中与目标文本对应的词标注为相同的槽位。
11.一种语义识别装置,其特征在于,所述装置包括:
待识别文本获取模块,用于获取待识别文本;
候选文本集合获取模块,用于根据所述待识别文本在标注文本索引库中获取候选文本集合;所述标注文本索引库包括多个具有语义标注信息的标注文本;
目标文本获取模块,用于在所述候选文本集合中获取与所述待识别语句最匹配的标注文本作为目标文本;
语义标注模块,用于根据目标文本对应的语义标注信息标注所述待识别文本,获得语义标注结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211479.5/1.html,转载请声明来源钻瓜专利网。