[发明专利]文本比对方法及相关装置在审
申请号: | 202011627500.X | 申请日: | 2020-12-31 |
公开(公告)号: | CN112699658A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 杜倩云;王永康;段纪丁 | 申请(专利权)人: | 科大讯飞华南人工智能研究院(广州)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/258;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李申 |
地址: | 510000 广东省广州市南沙区丰泽*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 相关 装置 | ||
1.一种文本比对方法,其特征在于,包括:
对基准文本和对比文本分别进行段落检测,以分别构建与所述基准文本和所述对比文本对应的段落图;其中在同一所述段落图中,相似度超过预设的相似度阈值的段落之间相互连接;
利用所述基准文本和所述对比文本所对应的所述段落图以及训练后的神经网络模型分别获得所述基准文本和所述对比文本中各段落的特征表示;
根据所述特征表示获得所述基准文本和所述对比文本之间的匹配段落对;
计算每个所述匹配段落对内的差异点,以获得文本比对结果。
2.根据权利要求1所述的文本比对方法,其特征在于,所述对基准文本和对比文本分别进行段落检测的步骤,包括:
对所述基准文本和所述对比文本分别构建原始段落图,其中,所述基准文本以及所述对比文本中的每个段落和章节标题对应于各自的所述原始段落图中的一个节点,且每个段落节点与其所属的章节标题节点之间相互连接,每个所述章节标题节点与上一级和同级的所述章节标题节点之间相互连接;
在同一个所述原始段落图中,在相似度超过预设的相似度阈值的段落所对应的段落节点之间建立相互连接,以形成所述段落图。
3.根据权利要求2所述的文本比对方法,其特征在于,所述在同一个所述原始段落图中,在相似度超过阈值的段落所对应的段落节点之间建立相互连接的步骤之前,包括:
基于文本词袋模型获得同一个所述原始段落图中的同一所述章节标题节点下以及不同所述章节标题节点下的各所述段落之间的相似度。
4.根据权利要求1所述的文本比对方法,其特征在于,
所述特征表示为所述段落的句向量编码表示和位置特征编码表示的融合结果,其中所述句向量编码表示用于表征所述段落的文本特征,所述位置特征编码表示用于表征所述段落所对应的段落节点在所述段落图中的位置特征。
5.根据权利要求1所述的文本比对方法,其特征在于,所述计算每个所述匹配段落对内的差异点的步骤,包括:
利用训练后的序列标注模型获得每个所述匹配段落对内的所述段落的标签位置和非标签位置;
将所述非标签位置处的原始文本保持,将所述标签位置处的原始文本重新表示为字符长度为一的替换文本,其中所述标签位置的原始文本不同,则所述替换文本不同;
利用序列比对算法获得处理后的所述匹配段落对的得分矩阵;
根据所述得分矩阵获得所述匹配段落对内的差异点。
6.根据权利要求5所述的文本比对方法,其特征在于,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:
若所述得分矩阵中横纵位置对应的文本相同,且相同的所述文本位于非标签位置,则根据所述相同的文本与最相邻的所述标签位置的距离为所述相同的文本分配不同的得分调整权重,其中所述距离越小,所述得分调整权重越大。
7.根据权利要求5所述的文本比对方法,其特征在于,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:
若所述得分矩阵中横纵位置对应的文本相同,则根据所述相同的文本处于所述标签位置还是所述非标签位置为所述相同的文本分配不同的得分调整权重,其中处于所述非标签位置时的所述得分调整权重大于处于所述非标签位置时的所述得分调整权重。
8.根据权利要求5所述的文本比对方法,其特征在于,所述利用训练后的序列标注模型获得每个所述匹配段落对内的段落的标签位置和非标签位置的步骤进一步包括:获取所述标签位置的标签类型;
所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本均位于所述标签位置,则根据所述文本是否具有相同的所述标签类型为所述文本分配不同的得分调整权重,其中所述标签类型相同时的所述得分调整权重大于所述标签类型不同时的所述得分调整权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞华南人工智能研究院(广州)有限公司,未经科大讯飞华南人工智能研究院(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011627500.X/1.html,转载请声明来源钻瓜专利网。