[发明专利]一种面向互联网的有意义串的挖掘方法和系统无效

专利信息
申请号: 200710120755.5 申请日: 2007-08-24
公开(公告)号: CN101149739A 公开(公告)日: 2008-03-26
发明(设计)人: 张华平;贺敏;黄玉兰;龚才春 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京律诚同业知识产权代理有限公司 代理人: 梁挥;陈振
地址: 100080北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 互联网 有意义 挖掘 方法 系统
【说明书】:

技术领域

发明涉及一种信息检索领域和操作系统领域,特别是一种面向互联网的有意义串的挖掘方法和系统。

背景技术

互联网上有着浩瀚如海的信息,但其庞大的数目使得Web用户很难从中有效获取有用信息,用户们面对汪洋大海般的日夜更新的信息,往往感到不知所措,不知道如何从海量信息中寻求自己真正想要的信息,更不知道如何获取或把握海量信息中的关键信息,及时掌握当前的重要资讯。同时面对时时刻刻不断涌现的新信息,任何人都无法做到“眼观六路、耳听八方”。在这个时候,人们更加迫切需要自然语言处理技术的强力支持,以应对日益严重的信息过载问题。

从海量的网络信息中提取出有用的关键信息,成为了一大难题,也成为了在网络信息爆炸时代亟待解决的需求。而此问题的解决,也将有着广泛的应用前景:对于个人,能通过它更方便地发现和组织当前重要资讯,它能够成为人们掌控海量信息的切入点。对于企业,能通过它及时掌握企业相关领域的最新动态,战略伙伴的发展方向,竞争对手的最新动作,为企业制定战略方针提供资讯方面的帮助。对于国家,能通过它了解当前社会重要事件,流行趋向,舆论方向等等,成为了解和掌握社会状况的信息窗口,为相关决策的制定提供帮助。

在这样的背景下,如何提取网络文本中的有用信息,凸现出了其自身的重要性,成为一个值得深入研究的方向。

发明内容

本发明的目的是提供一种面向互联网的有意义串的挖掘方法和系统,其能够有效的提取网页或大规模文本数据中的有意义串。

为实现本发明目的而提供的一种面向互联网的有意义串的挖掘方法,包括下列步骤:

步骤A,重复字符串发现;

步骤B,通过上下文邻接分析过滤所述字符串;

步骤C,通过语言模型分析过滤所述字符串。

所述步骤A包括下列步骤:

步骤A1,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。

所述步骤B包括下列步骤:

步骤B1,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。

所述步骤C包括下列步骤:

步骤C1,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。

所述步骤A1包括下列步骤:

步骤A11,将网页语料处理得到格式化的纯文本文件,然后将汉字转化为对应的ID;

步骤A12,对处理好的ID序列建立索引,从每个单字索引的信息开始扩展得到所有重复串,新产生的重复串写入文件之后,继续扩展得到长串,反复迭代,直到出现间隔符号或者长度达到指定阈值,停止扩展;

步骤A13,记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。

所述步骤B1包括下列步骤:

步骤B11,计算每条重复串的上下文邻接特征量,判断这些特征量是否达到设定的阈值;

步骤B12,如果达到阈值,则转入步骤C;

步骤B13,如果特征量未达到阈值,则将其过滤掉。

所述步骤C1包括下列步骤:

步骤C11,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;

步骤C12,逐字扫描相邻字对,查找相邻字对的耦合度;

步骤C13,当相邻字对的耦合度小于设定阈值时,不构成词的一部分,作为垃圾串过滤掉;

步骤C14,对相邻字对没有过滤掉的字符串,查找单字位置成词概率,判断其串首和串尾是否包含常用功能字;

步骤C15,如果是功能字,则将其过滤掉;

步骤C16,还没有被过滤掉的字符中确定为有意义串。

为实现本发明目的还提供一种面向互联网的有意义串的挖掘系统,包括:

重复串发现模块,用于将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉;

上下文邻接分析模块,用于计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;

统计语言模型分析模块,用于对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,得到有意义串。

所述统计语言模型分析模块,还用于在扫描相邻字对后,根据文本串的位置成词概率,进一步进行过滤字符串而得到有意义串。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710120755.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top