[发明专利]文本比对方法及相关装置在审
申请号: | 202011627500.X | 申请日: | 2020-12-31 |
公开(公告)号: | CN112699658A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 杜倩云;王永康;段纪丁 | 申请(专利权)人: | 科大讯飞华南人工智能研究院(广州)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/258;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李申 |
地址: | 510000 广东省广州市南沙区丰泽*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 相关 装置 | ||
本申请提供了一种文本比对方法及相关装置,所述文本比对方法包括:对基准文本和对比文本分别进行段落检测,以分别构建与所述基准文本和所述对比文本对应的段落图;其中在同一所述段落图中,相似度超过预设的相似度阈值的段落之间相互连接;利用所述基准文本和所述对比文本所对应的所述段落图以及训练后的神经网络模型分别获得所述基准文本和所述对比文本中各段落的特征表示;根据所述特征表示获得所述基准文本和所述对比文本之间的匹配段落对;计算每个所述匹配段落对内的差异点,以获得文本比对结果。通过上述方式,本申请能够降低误匹配的情况。
技术领域
本申请属于文本比对技术领域,具体涉及一种文本比对方法及相关装置。
背景技术
不管是在金融还是办公领域,都涉及到对商业文本、办公文本(包括docx文本、pdf文本和扫描件等)的比对,以便于定位和发现两份文本之间的差异,节省人工逐字比对的工作量,减少因为疏漏而导致的影响。
传统的比对算法一般是直接进行字面上的比较,不会结合段落及其上下文的语义表示,因此当出现两个比较相似的段落时,可能导致错误的匹配。
发明内容
本申请提供一种文本比对方法及相关装置,以解决上下文段落内容相似时容易出现误匹配的技术问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本比对方法,包括:对基准文本和对比文本分别进行段落检测,以分别构建与所述基准文本和所述对比文本对应的段落图;其中在同一所述段落图中,相似度超过预设的相似度阈值的段落所对应的段落节点之间相互连接;利用所述基准文本和所述对比文本所对应的所述段落图以及训练后的神经网络模型分别获得所述基准文本和所述对比文本中各段落的特征表示;根据所述特征表示获得所述基准文本和所述对比文本之间的匹配段落对;计算每个所述匹配段落对内的差异点,以获得文本比对结果。
其中,所述对基准文本和对比文本分别进行段落检测的步骤,包括:对所述基准文本和所述对比文本分别构建原始段落图,其中,所述基准文本以及所述对比文本中的每个段落和章节标题对应于各自的所述原始段落图中的一个节点,且每个段落节点与其所属的章节标题节点之间相互连接,每个所述章节标题节点与上一级和同级的所述章节标题节点之间相互连接;在同一个所述原始段落图中,在相似度超过预设的相似度阈值的段落所对应的段落节点之间建立相互连接,以形成所述段落图。
其中,所述在同一个所述原始段落图中,在相似度超过阈值的段落所对应的段落节点之间建立相互连接的步骤之前,包括:基于文本词袋模型获得同一个所述原始段落图中的同一所述章节标题节点下以及不同所述章节标题节点下的各所述段落之间的相似度。
其中,所述特征表示为所述段落的句向量编码表示和位置特征编码表示的融合结果,其中所述句向量编码表示用于表征所述段落的文本特征,所述位置特征编码表示用于表征所述段落所对应的段落节点在所述段落图中的位置特征。
其中,所述计算每个所述匹配段落对内的差异点的步骤,包括:利用训练后的序列标注模型获得每个所述匹配段落对内的所述段落的标签位置和非标签位置;将所述非标签位置处的原始文本保持,将所述标签位置处的原始文本重新表示为字符长度为一的替换文本,其中所述标签位置的原始文本不同,则所述替换文本不同;利用序列比对算法获得处理后的所述匹配段落对的得分矩阵;根据所述得分矩阵获得所述匹配段落对内的差异点。
其中,所述利用序列比对算法获得处理后的所述匹配段落对的得分矩阵的步骤包括:若所述得分矩阵中横纵位置对应的文本相同,且相同的所述文本位于非标签位置,则根据所述相同的文本与最相邻的所述标签位置的距离为所述相同的文本分配不同的得分调整权重,其中所述距离越小,所述得分调整权重越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞华南人工智能研究院(广州)有限公司,未经科大讯飞华南人工智能研究院(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011627500.X/2.html,转载请声明来源钻瓜专利网。