[发明专利]一种快速比对文本内容的方法与系统在审
申请号: | 201510989166.5 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105630751A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 陈春蓉;阳嫔虹;张委员;黄艺煌 | 申请(专利权)人: | 厦门优芽网络科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 速比 文本 内容 方法 系统 | ||
技术领域
本发明涉及信息检索领域,特别涉及一种快速比对文本内容的方法及其计算机软 件系统。
背景技术
文本内容比对是通过比较文档之文本所表述内容得出文档相似程度的过程。根据 原理差异,文本内容比对可以采用两种层面的相似度衡量方法:第一种方法基于文本语义, 根据文本所表述语义的接近程度来衡量相似度;第二种方法基于文字结构,根据文档段落、 句、词、字的用法和组合方式判断两篇文档的相似程度。前者涉及的语义乃当前信息检索领 域的一个难题,常用的方法是“词向量”法,使用文本中的关键词(keyword)表达语义特征; 后者的重点在于文字本身的相似程度,已用于论文查重等领域。
从文本比对效率角度看,基于语义的第一种比对方法效率高,但结果不够直观。例 如,“销售人员为了取得更多的销售业绩,采取赊销方式,往往导致逾期应收账款的发生”和 “销售人员只关心销售业绩,往往采取赊销的方式,导致发生逾期的应收账款”,此两段中文 语句语义相近但结构差距甚大,应用于文档查重时难有说服力。基于文字结构的第二种比 对方法直观性好,其结果可以直接作为判断文本内容是否涉嫌抄袭的依据,但是,这种方法 基于文档句子的两两比对,效率低,涉及大量文档时,通常无法达到实时比对的效果。例如, 每到毕业季,学生提交毕业论文之后,往往需要等待几天甚至超过一周以上的时间才能获 知查重结果。
本发明公开一种文本内容比对的快速方法及其计算机软件实现系统,兼具语义比 对方法效率高和结构比对方法直观性好的优点。本发明针对包含有少量英文段落和英文关 键词的中文文档,其典型的应用是基于文本内容的科技论文比对。
发明内容
本发明的目的是从大量文档中快速查找与待比对文档在文本语义上相似、文字结 构上雷同的文档集。由于判断两篇文档文字结构是否雷同是一个耗时的过程,当需要比对 的文档数量很大时,往往无法在短时间内完成。本发明融合文本语义比对和文字结构比对 两种方法,提供一种两阶段的文本内容快速比对方法,并在一个文本内容比对系统中加以 实现。所述系统包括(S1)和(S2)两个部分:
(S1)文档注册部分。用于从待注册文档的文本中自动学习关键词和构造注册文档库;
(S2)文档比对部分。用于从注册文档库搜索、输出与待比对文档在文本语义与文字结 构均相似的m篇已注册文档,并输出每篇文档与待比对文档最相似句子间的连续关键词匹 配关系。
进一步地,所述文档注册部分在注册一篇文档时,首先自动学习其中的新关键词 (指未出现在注册时关键词库中的关键词),并更新关键词库。所述新关键词的自动学习和 关键词库的更新过程由以下迭代的(L1)~(L4)步骤组成:
(L1)将待注册文档中的文字进行断句处理,分解为句子的集合,建立侯选新关键字集 合,并初始化为空;
(L2)对于每个句子,依据当前关键词库和标记为通过统计检验的候选新关键词,识别 句子包含的关键词,称之为旧关键词;
(L3)对于每个句子,提取两个连续的非停用词(stopword)单字、一个非停用词单字及 随后的旧关键词或一个旧关键词及随后的非停用词单字组成候选新关键词,添加到侯选新 关键字集合,累计每个候选新关键词在本次迭代中出现的次数,运用统计方法确定其中的 候选新关键词并作通过统计检验标记;
(L4)重复步骤(L2)~(L3)直到步骤(L3)没有标记任何通过统计检验的候选新关键词 或达到指定的迭代次数,迭代结束后,将标记为通过统计检验且计数大于零的候选新关键 词添加到关键词库。
所述文档注册部分使用更新后的关键词库,将待注册文档表示为“文本语义表达” 和“文字结构表达”两种方式,并在注册文档库中保存每篇文档的这两种表示方式。具体地, 首先将待比对文档中的文字进行断句处理,分解为句子的集合;接着,对于每个句子,依据 关键词库识别其中包含的关键词,忽略未对应关键词或属于停用词的文字。每个句子的关 键词序列构成所述待比对文档的“文字结构表达”方式;所述“文本语义表达”方式包含从所 有句子中提取的无重复的关键词及其出现次数等信息。
进一步地,所述文档比对子系统将待比对文档与注册文档库中的文挡进行文本内 容比对,包括以下(C1)~(C3)三个步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门优芽网络科技有限公司,未经厦门优芽网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510989166.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双层防静电气垫薄膜
- 下一篇:一种数字信息的提取方法及装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法