[发明专利]一种文本匹配方法、装置、服务器及存储介质有效
申请号: | 201810927161.3 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109190115B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 杜若;覃勋辉;向海;侯聪;刘科;刘波 | 申请(专利权)人: | 重庆邂智科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F16/33 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 400000 重庆市渝北区金*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 匹配 方法 装置 服务器 存储 介质 | ||
1.一种文本匹配方法,其特征在于,包括:
对输入文本进行处理,得到所述输入文本的第一句法关系树,所述第一句法关系树用于描述所述输入文本中各分词之间的搭配关系;
从数据库中确定目标文本和所述目标文本的第二句法关系树,所述数据库包括至少一个文本,所述目标文本为所述至少一个文本中的任一文本;
基于所述第一句法关系树和所述第二句法关系树,将所述输入文本中各分词和所述目标文本中各分词进行词对齐处理,得到至少一个词组,各个所述词组包括所述输入文本中的一个分词和所述目标文本中的一个分词;根据所述词组,得到所述词组所包含分词的词对关系,所述词对关系包括所述词组所包含分词之间的对应关系;
根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一句法关系树和所述第二句法关系树,将所述输入文本中各分词和所述目标文本中各分词进行词对齐处理,得到至少一个词组,包括:
确定所述第一句法关系树的各个层级对应的输入层级分词,所述各个层级对应的输入层级分词构成所述输入文本中的各分词;
确定所述第二句法关系树的各个层级对应的目标层级分词,所述各个层级对应的目标层级分词构成所述目标文本中的各分词;
将处于同一层级的输入层级分词和目标层级分词进行词对齐处理,得到至少一个词组。
3.根据权利要求1所述的方法,其特征在于,所述根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配之前,所述方法还包括:
判断所述词组是否只包括所述输入文本中的一个分词和所述目标文本中的一个分词;
若是,则触发执行根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配的步骤;
若否,则对所述词组进行优化,使所述词组只包括所述输入文本中的一个分词和所述目标文本中的一个分词。
4.根据权利要求3所述的方法,其特征在于,对所述词组进行优化,使所述词组只包括所述输入文本中的一个分词和所述目标文本中的一个分词,包括:
确定各词组中所述输入文本中的任一分词和所述目标文本中的任一分词之间的相似度,并根据所述相似度确定所述词组的单词相似度矩阵;
根据所述输入文本中各分词和所述目标文本中各分词之间的对应关系,确定所述输入文本中各分词和所述目标文本中各分词之间的对应关系矩阵;
根据所述单词相似度矩阵对所述对应关系矩阵进行优化,使所述词组只包括所述输入文本中的一个分词和所述目标文本中的一个分词。
5.根据权利要求3所述的方法,其特征在于,所述词对关系包括:同义关系和上下位关系中的一项或多项,所述根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配,包括:
获取各个词组所包含分词的词对关系;
若所述词对关系只包括同义关系,则确定所述输入文本和所述目标文本之间匹配;
若所述词对关系包括上下位关系,则确定所述输入文本和所述目标文本之间不匹配。
6.根据权利要求3所述的方法,其特征在于,所述词对关系包括:同位关系,所述根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配,包括:
获取各个词组所包含分词的词对关系;
若所述词对关系包括同位关系,则确定所述输入文本和所述目标文本之间不匹配;
若所述词对关系不包括同位关系,且所述输入文本中各分词和所述目标文本中各分词之间未检测到所述对应关系时,则确定所述输入文本和所述目标文本之间匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邂智科技有限公司,未经重庆邂智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810927161.3/1.html,转载请声明来源钻瓜专利网。