[发明专利]一种面向互联网的有意义串的挖掘方法和系统无效

申请号：	200710120755.5	申请日：	2007-08-24
公开（公告）号：	CN101149739A	公开（公告）日：	2008-03-26
发明（设计）人：	张华平;贺敏;黄玉兰;龚才春	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京律诚同业知识产权代理有限公司	代理人：	梁挥;陈振
地址：	100080北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向互联网有意义挖掘方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种信息检索领域和操作系统领域，特别是一种面向互联网的有意义串的挖掘方法和系统。

背景技术

互联网上有着浩瀚如海的信息，但其庞大的数目使得Web用户很难从中有效获取有用信息，用户们面对汪洋大海般的日夜更新的信息，往往感到不知所措，不知道如何从海量信息中寻求自己真正想要的信息，更不知道如何获取或把握海量信息中的关键信息，及时掌握当前的重要资讯。同时面对时时刻刻不断涌现的新信息，任何人都无法做到“眼观六路、耳听八方”。在这个时候，人们更加迫切需要自然语言处理技术的强力支持，以应对日益严重的信息过载问题。

从海量的网络信息中提取出有用的关键信息，成为了一大难题，也成为了在网络信息爆炸时代亟待解决的需求。而此问题的解决，也将有着广泛的应用前景：对于个人，能通过它更方便地发现和组织当前重要资讯，它能够成为人们掌控海量信息的切入点。对于企业，能通过它及时掌握企业相关领域的最新动态，战略伙伴的发展方向，竞争对手的最新动作，为企业制定战略方针提供资讯方面的帮助。对于国家，能通过它了解当前社会重要事件，流行趋向，舆论方向等等，成为了解和掌握社会状况的信息窗口，为相关决策的制定提供帮助。

在这样的背景下，如何提取网络文本中的有用信息，凸现出了其自身的重要性，成为一个值得深入研究的方向。

发明内容

本发明的目的是提供一种面向互联网的有意义串的挖掘方法和系统，其能够有效的提取网页或大规模文本数据中的有意义串。

为实现本发明目的而提供的一种面向互联网的有意义串的挖掘方法，包括下列步骤：

步骤A，重复字符串发现；

步骤B，通过上下文邻接分析过滤所述字符串；

步骤C，通过语言模型分析过滤所述字符串。

所述步骤A包括下列步骤：

步骤A1，将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉。

所述步骤B包括下列步骤：

步骤B1，计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串。

所述步骤C包括下列步骤：

步骤C1，对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，然后根据文本串的位置成词概率，进一步进行过滤而得到有意义串。

所述步骤A1包括下列步骤：

步骤A11，将网页语料处理得到格式化的纯文本文件，然后将汉字转化为对应的ID；

步骤A12，对处理好的ID序列建立索引，从每个单字索引的信息开始扩展得到所有重复串，新产生的重复串写入文件之后，继续扩展得到长串，反复迭代，直到出现间隔符号或者长度达到指定阈值，停止扩展；

步骤A13，记录每个串的邻接词信息以及文档信息，每类信息独立保存在一个文件中。

所述步骤B1包括下列步骤：

步骤B11，计算每条重复串的上下文邻接特征量，判断这些特征量是否达到设定的阈值；

步骤B12，如果达到阈值，则转入步骤C；

步骤B13，如果特征量未达到阈值，则将其过滤掉。

所述步骤C1包括下列步骤：

步骤C11，对一部分训练语料进行标注，生成相邻字的耦合度词典和单字位置成词概率词典；

步骤C12，逐字扫描相邻字对，查找相邻字对的耦合度；

步骤C13，当相邻字对的耦合度小于设定阈值时，不构成词的一部分，作为垃圾串过滤掉；

步骤C14，对相邻字对没有过滤掉的字符串，查找单字位置成词概率，判断其串首和串尾是否包含常用功能字；

步骤C15，如果是功能字，则将其过滤掉；

步骤C16，还没有被过滤掉的字符中确定为有意义串。

为实现本发明目的还提供一种面向互联网的有意义串的挖掘系统，包括：

重复串发现模块，用于将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉；

上下文邻接分析模块，用于计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串；

统计语言模型分析模块，用于对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，得到有意义串。

所述统计语言模型分析模块，还用于在扫描相邻字对后，根据文本串的位置成词概率，进一步进行过滤字符串而得到有意义串。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710120755.5/2.html，转载请声明来源钻瓜专利网。

上一篇：治疗口臭既正口气的中药
下一篇：三七总皂苷及其单体在制备治疗抑郁症药物中的应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向互联网的有意义串的挖掘方法和系统无效

专利文献下载