[发明专利]一种面向互联网的有意义串的挖掘方法和系统无效
申请号: | 200710120755.5 | 申请日: | 2007-08-24 |
公开(公告)号: | CN101149739A | 公开(公告)日: | 2008-03-26 |
发明(设计)人: | 张华平;贺敏;黄玉兰;龚才春 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;陈振 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 互联网 有意义 挖掘 方法 系统 | ||
技术领域
本发明涉及一种信息检索领域和操作系统领域,特别是一种面向互联网的有意义串的挖掘方法和系统。
背景技术
互联网上有着浩瀚如海的信息,但其庞大的数目使得Web用户很难从中有效获取有用信息,用户们面对汪洋大海般的日夜更新的信息,往往感到不知所措,不知道如何从海量信息中寻求自己真正想要的信息,更不知道如何获取或把握海量信息中的关键信息,及时掌握当前的重要资讯。同时面对时时刻刻不断涌现的新信息,任何人都无法做到“眼观六路、耳听八方”。在这个时候,人们更加迫切需要自然语言处理技术的强力支持,以应对日益严重的信息过载问题。
从海量的网络信息中提取出有用的关键信息,成为了一大难题,也成为了在网络信息爆炸时代亟待解决的需求。而此问题的解决,也将有着广泛的应用前景:对于个人,能通过它更方便地发现和组织当前重要资讯,它能够成为人们掌控海量信息的切入点。对于企业,能通过它及时掌握企业相关领域的最新动态,战略伙伴的发展方向,竞争对手的最新动作,为企业制定战略方针提供资讯方面的帮助。对于国家,能通过它了解当前社会重要事件,流行趋向,舆论方向等等,成为了解和掌握社会状况的信息窗口,为相关决策的制定提供帮助。
在这样的背景下,如何提取网络文本中的有用信息,凸现出了其自身的重要性,成为一个值得深入研究的方向。
发明内容
本发明的目的是提供一种面向互联网的有意义串的挖掘方法和系统,其能够有效的提取网页或大规模文本数据中的有意义串。
为实现本发明目的而提供的一种面向互联网的有意义串的挖掘方法,包括下列步骤:
步骤A,重复字符串发现;
步骤B,通过上下文邻接分析过滤所述字符串;
步骤C,通过语言模型分析过滤所述字符串。
所述步骤A包括下列步骤:
步骤A1,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。
所述步骤B包括下列步骤:
步骤B1,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。
所述步骤C包括下列步骤:
步骤C1,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。
所述步骤A1包括下列步骤:
步骤A11,将网页语料处理得到格式化的纯文本文件,然后将汉字转化为对应的ID;
步骤A12,对处理好的ID序列建立索引,从每个单字索引的信息开始扩展得到所有重复串,新产生的重复串写入文件之后,继续扩展得到长串,反复迭代,直到出现间隔符号或者长度达到指定阈值,停止扩展;
步骤A13,记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。
所述步骤B1包括下列步骤:
步骤B11,计算每条重复串的上下文邻接特征量,判断这些特征量是否达到设定的阈值;
步骤B12,如果达到阈值,则转入步骤C;
步骤B13,如果特征量未达到阈值,则将其过滤掉。
所述步骤C1包括下列步骤:
步骤C11,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;
步骤C12,逐字扫描相邻字对,查找相邻字对的耦合度;
步骤C13,当相邻字对的耦合度小于设定阈值时,不构成词的一部分,作为垃圾串过滤掉;
步骤C14,对相邻字对没有过滤掉的字符串,查找单字位置成词概率,判断其串首和串尾是否包含常用功能字;
步骤C15,如果是功能字,则将其过滤掉;
步骤C16,还没有被过滤掉的字符中确定为有意义串。
为实现本发明目的还提供一种面向互联网的有意义串的挖掘系统,包括:
重复串发现模块,用于将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉;
上下文邻接分析模块,用于计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;
统计语言模型分析模块,用于对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,得到有意义串。
所述统计语言模型分析模块,还用于在扫描相邻字对后,根据文本串的位置成词概率,进一步进行过滤字符串而得到有意义串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710120755.5/2.html,转载请声明来源钻瓜专利网。