[发明专利]文本匹配方法及装置有效
申请号: | 201910374177.0 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110287396B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 肖朝军;钟皓曦;曾国洋;刘知远 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙;苗晓静 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 | ||
1.一种文本匹配方法,其特征在于,包括:
对于文本集合中的任意一个文本,根据所述文本中的各词汇在所述文本中的词频以及所述文本中的各词汇在文本集合中的逆文本频率,获得所述文本的语法表示;将所述文本输入至预先训练的深度双向转换编码器中,输出所述文本的语义表示;将所述文本的语法表示和语义表示组合为所述文本的文本特征;
从所述文本集合中选择待匹配文本,计算所述待匹配文本的文本特征与所述文本集合中其他文本的文本特征间的欧氏距离,将欧氏距离最近的k个其他文本作为与所述待匹配文本类似的文本;其中,k为正整数;
所述根据所述文本中的各词汇在所述文本中的词频以及所述文本中的各词汇在文本集合中的逆文本频率,获得所述文本的语法表示,具体为:
对于文本中的任意词汇,将所述词汇在所述文本中的词频与所述词汇在文本集合中的逆文本频率的乘积,作为所述词汇在所述文本中的特征表示,将文本中所有词汇的特征表示进行组合,获得所述文本的语法表示。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述计算所述待匹配文本的文本特征与所述文本集合中其他文本的文本特征间的欧氏距离,具体为:
预先确定r个哈希函数,将文本集合中各文本的文本特征代入每个哈希函数中,获得每个文本的r个哈希值;
搜索与所述待匹配文本的每个哈希值处于同一哈希槽的其他文本作为候选文本;
计算所述待匹配文本的文本特征与所述候选文本的文本特征间的欧氏距离;其中,r为正整数。
3.根据权利要求1所述的文本匹配方法,其特征在于,所述将所述文本的语法表示和语义表示组合为所述文本的文本特征,之前还包括:
通过主成分分析法对所述文本的语法表示进行降维处理。
4.根据权利要求1所述的文本匹配方法,其特征在于,所述将所述文本输入至预先训练的深度双向转换编码器中,输出所述文本的语义表示,具体为:
将文本中的每个词汇输入至所述深度双向转换编码器的编码层,输出对应每个词汇的词向量;
将文本中的每个词向量输入至L层预先训练的双向转换编码器,将最后一次双向转换编码器的输出量作为文本的语义表示;
其中,在每一层双向转换编码器中,将输入量先使用多头的注意力机制进行编码,将编码后的结果输入残差网络,获得当前层的双向转换编码器的输出量;其中,L为正整数。
5.根据权利要求1或4所述的文本匹配方法,其特征在于,所述深度双向转换编码器的训练方法为:
从样本文本中选定两句话,并设置所述两句话是否为连续上下文的第一标签,将所述两句话以及第一标签输入至深度双向转换编码器进行训练,直至所述深度双向转换编码器输出的两句话是否为连续上下文的判断结果符合预设要求;
将样本文本中的部分词隐去或者随机变换为其他已出现的词,将修改后的样本文本以及修改便签输入至深度双向转换编码器进行训练,直至所述深度双向转换编码器输出的样本文本的纠错结果符合预设要求。
6.一种文本匹配装置,其特征在于,包括:
文本特征提取模块,用于对于文本集合中的任意一个文本,根据所述文本中的各词汇在所述文本中的词频以及所述文本中的各词汇在文本集合中的逆文本频率,获得所述文本的语法表示;将所述文本输入至预先训练的深度双向转换编码器中,输出所述文本的语义表示;将所述文本的语法表示和语义表示组合为所述文本的文本特征;
匹配模块,用于从所述文本集合中选择待匹配文本,计算所述待匹配文本的文本特征与所述文本集合中其他文本的文本特征间的欧氏距离,将欧氏距离最近的k个其他文本作为与所述待匹配文本类似的文本;其中,k为正整数;
所述根据所述文本中的各词汇在所述文本中的词频以及所述文本中的各词汇在文本集合中的逆文本频率,获得所述文本的语法表示,具体为:
对于文本中的任意词汇,将所述词汇在所述文本中的词频与所述词汇在文本集合中的逆文本频率的乘积,作为所述词汇在所述文本中的特征表示,将文本中所有词汇的特征表示进行组合,获得所述文本的语法表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910374177.0/1.html,转载请声明来源钻瓜专利网。