[发明专利]一种便于查询的电子文本的相似性处理方法和系统无效
申请号: | 200710164148.9 | 申请日: | 2007-10-08 |
公开(公告)号: | CN101246484A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 刘二中 | 申请(专利权)人: | 刘二中 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 便于 查询 电子 文本 相似性 处理 方法 系统 | ||
1、一种计算机运用的对多个电子文本进行处理的方法,包括:
[i]获得多个含有同样关键词查询项的电子文本;
[ii]确定各个文本内容中所述关键词查询项邻近内容的同样划取范围,所述关键词查询项邻近内容为文本内容中所述关键词查询项之外的与之邻近的划取范围内的内容;
[iii]规定不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,该标准至少包括或间接包含对来自不同文本的所述关键词查询项邻近内容中彼此相同部分的多少或所占比例的要求,其中相同部分可以是指彼此相同的字词或词根或字符或词组;
[iv]按照[iii]所述对不同文本的所述关键词查询项邻近内容是否属于相似的判定标准,确定这些文本的所述关键词查询项邻近内容相互之间是否属于相似,并根据这些文本的所述关键词查询项邻近内容相互之间是否属于相似对这些文本进行分类,并以其分类的相同或不同对这些文本进行处理;
所述的电子文本或文本指的可以是计算机或数据库或信息存贮装置或互联网或服务器或者搜索引擎的数据库或数据处理器等装置中的文件、文本或网页或摘要或题录或标题或索引或章节或段落或包含文字或字符内容的信息。
2、按照权利要求1所述的方法,其中[iii]对所述关键词查询项邻近内容是否属于相似的判定标准,还可以依据或参考以下评估因素或原则中的一个或多个:
来自不同文本的所述关键词查询项邻近内容是否完全相同;
来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中相对于原关键词查询项的前后位置或距离的差别大小;
来自不同文本的所述关键词查询项邻近内容中各个彼此相同部分分别在原文中的顺序的差别大小;
来自不同文本的所述关键词查询项邻近内容中彼此相同部分分别在原文中与原关键词查询项的距离的大小;
利用矢量空间模型的计算方法为来自不同文本的所述关键词查询项邻近内容的彼此相似程度给出的数值的大小;
或者对以上评估因素中的一个或多个或其他因素加权,给出一种或多种目标函数(obiective function)以得出来自不同文本的所述关键词查询项邻近内容的相应的相似性程度或得出是否属于相似的判定。
3、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:
令相应文本或文本的部分内容具有相同或不同的分布位置或存储方式,或者划分为相同或不同的子集,或者得到相同或不同的子集标记,或者使得其在数据库的索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个题录或摘要或文本或子集内文本的相似的关键词查询项邻近内容或其中的相同部分进行跨子集组合或排序或在交互界面展示。
4、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:划分相似子集:可以将多个文本或文本部分内容划分为多个相似子集,同一相似子集里的各个文本或文本部分内容的所述关键词查询项邻近内容属于相似。
5、按照权利要求1所述的方法,其中:
上述[iv]所述的处理,可以包括:划分相同核心子集:可以将多个文本或文本部分内容划分为多个相同核心子集,要求同一相同核心子集里的各个文本或文本部分内容的所述关键词查询项邻近内容都相同。
6、按照权利要求1或4或5所述的方法,其中:
上述[iv]所述的处理,可以包括:相似子集细分:可以在划分相似子集或划分相同核心子集的基础上,用关于关键词查询项邻近内容是否属于相似的更严格判定标准或更多的判定因素,将已有的任一个相似子集或相同核心子集中的多个文本或文本部分内容划分为多个下一级相似程度更高的子集。
7、按照权利要求1或4或5所述的方法,其中:
上述[iv]所述的处理,可以包括:相似子集再分:可以在划分相似子集或划分相同核心子集.的基础上,对已有的一个相似子集或相同核心子集里的多个文本或文本部分内容中原有的关键词查询项邻近内容划取范围之外的一定邻近范围的新内容再进行相似性比较,根据其相似与否,将这些文本或文本部分内容划分为多个下一级相似子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘二中,未经刘二中许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710164148.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于导光纤维聚焦的材料表面激光微加工方法及装置
- 下一篇:电动机驱动计量泵