[发明专利]一种面向互联网的有意义串的挖掘方法和系统无效
申请号: | 200710120755.5 | 申请日: | 2007-08-24 |
公开(公告)号: | CN101149739A | 公开(公告)日: | 2008-03-26 |
发明(设计)人: | 张华平;贺敏;黄玉兰;龚才春 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;陈振 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 互联网 有意义 挖掘 方法 系统 | ||
1.一种面向互联网的有意义串的挖掘方法,其特征在于,包括下列步骤:
步骤A,重复字符串发现;
步骤B,通过上下文邻接分析过滤所述字符串;
步骤C,通过语言模型分析过滤所述字符串。
2.根据权利要求1所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤A包括下列步骤:
步骤A1,将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉。
3.根据权利要求2所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤B包括下列步骤:
步骤B1,计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串。
4.根据权利要求3所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤C包括下列步骤:
步骤C1,对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,然后根据文本串的位置成词概率,进一步进行过滤而得到有意义串。
5.根据权利要求2所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤A1包括下列步骤:
步骤A11,将网页语料处理得到格式化的纯文本文件,然后将汉字转化为对应的ID;
步骤A12,对处理好的ID序列建立索引,从每个单字索引的信息开始扩展得到所有重复串,新产生的重复串写入文件之后,继续扩展得到长串,反复迭代,直到出现间隔符号或者长度达到指定阈值,停止扩展;
步骤A13,记录每个串的邻接词信息以及文档信息,每类信息独立保存在一个文件中。
6.根据权利要求3所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤B1包括下列步骤:
步骤B11,计算每条重复串的上下文邻接特征量,判断这些特征量是否达到设定的阈值;
步骤B12,如果达到阈值,则转入步骤C;
步骤B13,如果特征量未达到阈值,则将其过滤掉。
7.根据权利要求4所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤C1包括下列步骤:
步骤C11,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;
步骤C12,逐字扫描相邻字对,查找相邻字对的耦合度;
步骤C13,当相邻字对的耦合度小于设定阈值时,不构成词的一部分,作为垃圾串过滤掉;
步骤C14,对相邻字对没有过滤掉的字符串,查找单字位置成词概率,判断其串首和串尾是否包含常用功能字;
步骤C15,如果是功能字,则将其过滤掉;
步骤C16,还没有被过滤掉的字符确定为有意义串。
8.根据权利要求4所述的面向互联网的有意义串的挖掘方法,其特征在于,所述步骤C1包括下列步骤:
步骤C11′,对一部分训练语料进行标注,生成相邻字的耦合度词典和单字位置成词概率词典;
步骤C12′,取出字符串中首的字对,判断其相邻字的耦合度,如果大于阈值,则认为该字对结合紧密,构成词的首部,则不再对首字的单字位置成词概率进行判断。
9.一种面向互联网的有意义串的挖掘系统,其特征在于,包括:
重复串发现模块,用于将网页语料处理得到格式化的纯文本文件,对文本文件进行分类,记录文本中重复出现的字符串及其出现的频次,将出现次数小于一定阈值的字符串滤掉;
上下文邻接分析模块,用于计算每条重复串的上下文邻接特征量,并判断这些特征量是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;
统计语言模型分析模块,用于对文本串逐字扫描相邻字对,查找相邻字对的耦合度,根据耦合度过滤文本串,得到有意义串。
10.根据权利要求9所述的面向互联网的有意义串的挖掘系统,其特征在于,所述统计语言模型分析模块,还用于在扫描相邻字对后,根据文本串的位置成词概率,进一步进行过滤字符串而得到有意义串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710120755.5/1.html,转载请声明来源钻瓜专利网。