[发明专利]文档相似性评价系统、文档相似性评价方法以及计算机程序有效
申请号: | 201210528898.0 | 申请日: | 2012-12-10 |
公开(公告)号: | CN103218388B | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 周文琦 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 王波波 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种能够评价至少两类文档中具有高相似性的部分的集中和分散程度的文档相似性评价系统或类似系统,包括片段搜索单元,在第一片段串和第二片段串二者中寻找公共片段,对找到的公共片段的个数进行计数,并识别出现所述公共片段的出现范围;以及相似性指数计算单元,执行计算第一和,即片段搜索单元识别出的出现范围中包括的每个片段的字符个数和;计算第二和,即是被识别为公共片段的每个片段的字符个数和;并且使用以下等式计算对第一片段串与第二片段串之间的相似性加以指示的相似性指数相似性指数=F(NTC)/G(NCC)×NS(其中,NTC是第一和,NCC是第二和,NS是公共片段的个数,函数F和函数G是将特定整数值与正实数值相关联的单调增函数)。 | ||
搜索关键词: | 文档 相似性 评价 系统 方法 以及 计算机 程序 | ||
【主权项】:
一种文档相似性评价系统,包括:片段搜索单元,所述片段搜索单元在第一片段串和第二片段串二者中寻找公共片段,对找到的所述公共片段的个数进行计数,并且识别出现所述公共片段的出现范围;以及相似性指数计算单元,所述相似性指数计算单元:计算第一和,所述第一和是所述片段搜索单元识别出的所述出现范围中包括的每个片段的字符个数和;计算第二和,所述第二和是被识别为所述公共片段的每个片段的字符个数和;以及使用以下等式计算对所述第一片段串与所述第二片段串之间的相似性加以指示的相似性指数:相似性指数=F(NTC)/G(NCC)×NS,其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的个数,并且函数F和函数G是将特定整数值与正实数值相关联的单调增函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210528898.0/,转载请声明来源钻瓜专利网。