[发明专利]一种语义匹配方法和系统有效
申请号: | 201710375390.4 | 申请日: | 2017-05-24 |
公开(公告)号: | CN107329949B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 殷子墨;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 匹配 方法 系统 | ||
1.一种语义匹配方法,其特征在于,包括:
对至少一个领域内的任意一个第一语句、第二语句、第三语句分别作向量转换处理,得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量,其中,所述第二语句与所述第一语句语义相同,所述第三语句与所述第一语句语义不同;
将所述至少一个领域内的正样本、负样本分别作为训练样本输入至循环神经网络模型进行语义判断训练,得到用于所述至少一个领域的语义判断模型,其中,所述第一语句句向量和所述第二语句句向量作为一组正样本、所述第一语句句向量和所述第三语句句向量作为一组负样本;
将所述至少一个领域内任意一个目标领域的待识别语句的句向量以及所述目标领域内的目标候选语句的句向量作为一组待判断的句向量输入至所述语义判断模型,其中,所述目标领域内的每个候选语句的句向量轮流作为所述一组待判断的句向量中的所述目标候选语句的句向量;
依次计算所述待识别语句的句向量与所述目标领域内的每个候选语句的句向量之间的相似度;
将与所述待识别语句的句向量相似度最高的候选语句,确定为与所述待识别语句的语义相近的目标语句;
其中,对至少一个领域内的任意一个第一语句、第二语句、第三语句分别作向量转换处理,得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量,包括以下步骤:
对所述第一语句、所述第二语句、所述第三语句分别作分词处理,得到多个分词;
将所述多个分词均作向量转换处理,得到多个分词向量;
采用如下公式计算得到所述至少一个领域中的第一语句句向量、第二语句句向量,以及第三语句句向量;
其中,ak为某个语句中第k个分词在某领域中的TF-IDF权重,vk为所述语句中第k个分词对应的分词向量,N为所述语句中包含的分词总数,VQ为某领域中语句的句向量。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一语句、所述第二语句、所述第三语句分别作向量转换处理,得到所述至少一个领域内的第一语句句向量、第二语句句向量、第三语句句向量的步骤之前,所述方法还包括:
获取不同领域的中文语料;
将不同领域的中文语料按领域划分至不同的文档中,使得一个文档包含一个领域的所有语料;
对每个文档内的中文语料作分词处理,得到多个分词;
计算每个分词在不同领域内的TF-IDF权重。
3.根据权利要求2所述的方法,其特征在于,采用如下公式计算每个分词在不同领域内的TF-IDF权重:
其中,ni,j表示分词ti在j领域的文档中出现的总次数,分母 表示分词ti在k个领域的k个文档中出现次数的总和,tfi,j为分词ti在j领域的词频;
idfi公式中的K表示领域总数,ki表示包含分词ti的领域总数;
tfidfi,j=tfi,j×idfi (4);
其中,tfidfi,j表示当前计算的分词ti在当前计算的j领域内的TF-IDF权重。
4.根据权利要求1所述的方法,其特征在于,所述将与所述待识别语句的句向量相似度最高的候选语句,确定为与所述待识别语句的语义相近的目标语句的步骤之后,所述方法还包括:
在数据库中查找与所述目标语句配套的答案语句;
将所述答案语句返回至用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710375390.4/1.html,转载请声明来源钻瓜专利网。