[发明专利]不同文档中相关句子的匹配方法、系统和计算机可读存储介质在审
申请号: | 202010559644.X | 申请日: | 2020-06-18 |
公开(公告)号: | CN112380830A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王忠萌;陈运文;王文广;贺梦洁;胡盟;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/216 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 张文玄;周涛 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不同 文档 相关 句子 匹配 方法 系统 计算机 可读 存储 介质 | ||
本发明公开了一种不同文档中相关句子的匹配方法,用于将基准文档中的基准句子和比对文档中的候选句子进行匹配,所述匹配方法包括:在浅层语义、统计信息、深层语义三个层面上,计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数;基于线性回归模型拟合所述浅层分数、统计分数和深层分数,获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。本发明提高文档匹配准确性。
技术领域
本发明属于计算机自然语言处理领域,具体涉及一种不同文档中相关句子的匹配方法、系统和计算机可读存储介质。
背景技术
近年来随着信息时代的发展,计算机要处理的文本数量与日俱增。面对海量的文本,让机器自动处理文本成为了当前的热潮。在这其中,文档内容匹配的需求逐渐扩大,人们可以通过机器自动匹配,可以方便的找出不同文档的区别与联系,从而便于进行舆情比对、辅助决策等,在经济、法律等领域发挥着巨大的作用。
常见的方法如TF-IDF算法,通过计算出文档中每个词的TF-IDF值,然后结合相似度计算方法(一般采用余弦相似度)就可以计算两个文档的相似度。采用TF-IDF的前提是“文章的词语重要性与词语在文章中出现的位置不相关”。该算法的核心思想是:在一篇文章中,某个词语的重要性与该词语在这篇文章中出现的次数成正相关,同时与整个语料库中出现该词语的文章数成负相关。
同时,还有深度学习的方法较为流行,深度神经网络被广泛用于句子建模,深度学习模型可以将句子表示为语义空间上的向量矩阵,利用向量之间的距离更准确的描述两个句子之间的语义关系,卷积神经网络善于提取句子中的抽象特征,循环神经网络善于保持并利用长距离信息。如具有代表性的DSSM算法。DSSM是一种深度学习语义匹配模型,在检索场景下,利用用户的点击数据来训练语义层次的匹配。DSSM利用点击率来代替相关性,点击数据中包含大量的用户问句和对应的点击文档,这些点击数据将用户的问题和匹配的文档连接起来。谷歌提出BERT预训练模型,利用Transformer结构进行双向的编码,运用海量数据进行Masked LM和Next Sentence Prediction的预训练。进而,可以用于下游任务的微调。例如,在进行文本相似度任务时,调整输出层的结构,使用线性层进行模型微调,得到最终结果。
目前,文档匹配任务面临着若干困难,首先,句子匹配本身存在问题。对同一个事物的不同的描述,会影响计算机难以将两个文本判定相似,导致召回率降低;多样化的语义结构,如“社会主义”,既可以作为描述主体也可以作为形容词去修饰,如“社会主义法制”与“社会主义文化”。其次,文本匹配系统面临着跨领域文本的问题,在不同的文本领域,其判定方法并非完全一致,需要具体判断是否为描述主题。从而影响快速准确的做迁移。最后,孤立句子的匹配分数,和整个文档范围的匹配结果并不一致,和结果的可读性也会不一致。这些问题都是当前文本相似系统的挑战。
发明内容
针对现有技术中存在的问题,本发明提供一种不同文档中相关句子的匹配方法,本发明的部分实施例能够提高文档匹配精度。
为实现上述目的,本发明采用以下技术方案:
一种不同文档中相关句子的匹配方法,用于将基准文档中的基准句子和比对文档中的候选句子进行匹配,所述匹配方法包括:在浅层语义、统计信息、深层语义三个层面上,计算候选句子相对于基准句子的表示匹配程度的浅层分数、统计分数、深层分数;基于线性回归模型拟合所述浅层分数、统计分数和深层分数,获得用来表示所述候选句子相对于基准句子的匹配度的最终分数。
优选地,所述浅层语义的获取包括三个平行指标的获取,所述平行指标分别为:字符、分词、主干成分。
优选地,所述主干成分的获取包括:找出句子中的名词以及与其为定中结构的形容词;从距离名词最近的形容词开始,依次向远离名词的方向进行多个形容词的叠加,配合名词组合得到多个主干成分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010559644.X/2.html,转载请声明来源钻瓜专利网。