[发明专利]相似文本识别方法及装置在审
申请号: | 201811425522.0 | 申请日: | 2018-11-27 |
公开(公告)号: | CN109614610A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 樊芳利 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本识别 语义模型 文本 目标文本 训练样本 筛选 输出结果 组合模型 负样本 正样本 标注 瀑布 | ||
1.一种相似文本识别方法,其特征在于,所述方法包括:
获取标注完成的文本对作为训练样本;
其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;
根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;
采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;
采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
2.根据权利要求1所述的方法,其特征在于,所述语义模型包括LSF-SCNN模型,
根据所述训练样本,训练语义模型包括:
将所述文本对的第一文本和所述第二文本拆分成字符;
获取每个字符的字符特征向量,所述字符特征向量包括字向量和LSF特征值;
根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵,并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵;
基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵,以及所述文本对的标注结果,训练所述LSF-SCNN模型。
3.根据权利要求2所述的方法,其特征在于,获取每个字符的字符特征向量包括:
匹配字向量表,获取文本对中每个字符的字向量;
针对第一文本中的每个字符,确定该字符与第二文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值,以及针对第二文本中的每个字符,确定该字符与第一文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值;
针对文本对的每个字符,将该字符的LSF特征值拼接在该字符的字向量之后,得到该字符的字符特征向量。
4.根据权利要求3所述的方法,其特征在于,采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本,包括:
获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵;
将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型;
当训练完成的LSF-SCNN模型的输出结果对应正样本时,确定所述待识别文本为待定文本。
5.根据权利要求1所述的方法,其特征在于,采用字面距离模型从所述待定文本中筛选出目标文本的相似文本,包括:
获取待定文本的SimHash值和所述目标文本的SimHash值;
根据所述待定文本的SimHash值和所述目标文本的SimHash值,确定所述待定文本与所述目标文本之间的字面距离;
当所述字面距离在距离阈值内时,确定所述待定文本为相似文本。
6.一种相似文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取标注完成的文本对作为训练样本;
其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;
训练模块,用于根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;
第一筛选模块,用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;
第二筛选模块,用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811425522.0/1.html,转载请声明来源钻瓜专利网。