[发明专利]一种文本匹配方法、装置、服务器及存储介质有效
申请号: | 201810927161.3 | 申请日: | 2018-08-14 |
公开(公告)号: | CN109190115B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 杜若;覃勋辉;向海;侯聪;刘科;刘波 | 申请(专利权)人: | 重庆邂智科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F16/33 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 400000 重庆市渝北区金*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 匹配 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种文本匹配方法、装置、服务器及存储介质,其中方法包括:对输入文本进行处理,得到所述输入文本的第一句法关系树,所述第一句法关系树用于描述所述输入文本中各分词之间的搭配关系;从数据库中确定目标文本和所述目标文本的第二句法关系树,所述数据库包括至少一个文本,所述目标文本为所述至少一个文本中的任一文本;基于所述第一句法关系树和所述第二句法关系树,确定出所述输入文本中各分词和所述目标文本中各分词之间的词对关系;根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配,可快速且准确地完成对输入文本和目标文本之间的匹配检测。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本匹配方法、装置、服务器及存储介质。
背景技术
目前,常采用词频-逆文本频率指数(Term Frequency Inverse DocumentFrequency,TFIDF)和空间向量模型等算法来计算不同文本之间的匹配度,其中,这些算法主要是从文本相似度和意图相似度等层面为不同文本之间的匹配度进行打分,并将得到的分数和预设的分数阈值进行比较,从而可确定不同文本之间是否匹配。
但是,由于目前常采用的计算不同文本之间匹配度的方法并没有考虑其他因素对匹配度判别造成的影响,导致不同文本之间的匹配度的准确度较低。
发明内容
本发明实施例提供了一种文本匹配方法、装置、服务器及存储介质,可快速且准确地完成对输入文本和目标文本之间的匹配检测。
第一方面,本发明实施例提供了一种文本匹配方法,该方法包括:
对输入文本进行处理,得到所述输入文本的第一句法关系树,所述第一句法关系树用于描述所述输入文本中各分词之间的搭配关系;
从数据库中确定目标文本和所述目标文本的第二句法关系树,所述数据库包括至少一个文本,所述目标文本为所述至少一个文本中的任一文本;
基于所述第一句法关系树和所述第二句法关系树,确定出所述输入文本中各分词和所述目标文本中各分词之间的词对关系;
根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配。
在一个实施例中,所述基于所述第一句法关系树和所述第二句法关系树,确定出所述输入文本中各分词和所述目标文本中各分词之间的词对关系,包括:
基于所述第一句法关系树和所述第二句法关系树,将所述输入文本中各分词和所述目标文本中各分词进行词对齐处理,得到至少一个词组,各个所述词组包括所述输入文本中的一个分词和所述目标文本中的一个分词;
根据所述词组,得到所述词组所包含分词的词对关系,所述词对关系包括所述词组所包含分词之间的对应关系。
在一个实施例中,所述基于所述第一句法关系树和所述第二句法关系树,将所述输入文本中各分词和所述目标文本中各分词进行词对齐处理,得到至少一个词组,包括:
确定所述第一句法关系树的各个层级对应的输入层级分词,所述各个层级对应的输入层级分词构成所述输入文本中的各分词;
确定所述第二句法关系树的各个层级对应的目标层级分词,所述各个层级对应的目标层级分词构成所述目标文本中的各分词;
将处于同一层级的输入层级分词和目标层级分词进行词对齐处理,得到至少一个词组。
在一个实施例中,所述根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配之前,所述方法还包括:
判断所述词组是否只包括所述输入文本中的一个分词和所述目标文本中的一个分词;
若是,则触发执行根据所述词对关系确定所述输入文本和所述目标文本之间是否匹配的步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邂智科技有限公司,未经重庆邂智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810927161.3/2.html,转载请声明来源钻瓜专利网。