[发明专利]面向互联网的有意义串的提取方法及装置有效
申请号: | 201010179684.8 | 申请日: | 2010-05-24 |
公开(公告)号: | CN101853284A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 王巍;杨武;苘大鹏;董红臣 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 互联网 有意义 提取 方法 装置 | ||
1.一种面向互联网的有意义串的提取方法,其特征是包括下列步骤:
步骤1:提取重复字符串;
步骤2:通过串内分析过滤所述字符串;
步骤3:通过串外分析过滤所述字符串;
步骤4:通过串间分析过滤所述字符串。
2.根据权利要求1所述的面向互联网的有意义串的提取方法,其特征是所述提取重复字符串包括:将网页语料处理得到规则化的文本,记录文本中出现的重复串以及其出现的次数,过滤掉频次低于阈值的重复串和串长低于阈值的重复串;具体步骤为:
步骤1.1去除网页标签,将网页预处理得到规则化的文本格式,并把文本编码格式转化成GB2312格式的编码;
步骤1.2根据GB2312编码格式,将汉字,英文,数字符号分别转化成其ID表示,并将其他符号用空格的ASCII码代替;
步骤1.3提取该文本的重复串,记录文本中出现的重复串和重复串的次数,过滤出现次数小于一定阈值的重复串;
步骤1.4如果提取的重复串中有空格,则以空格为分隔符把重复串拆成子串。
3.根据权利要求1或2所述的面向互联网的有意义串的提取方法,其特征是所述对字符串进行串内分析包括:如果该串不是双字串,计算字符串的互信息,判断互信息是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;如果该串是双字串,根据训练得到的双字串统计表和白名单以及双字串分词后的结果对双字串进行过滤;具体步骤为:
步骤2.1对训练语料进行训练,生成双字串词性统计表,双字串白名单;
步骤2.2如果字符串的长度大于2,转入步骤2.3,否则转入步骤2.5;
步骤2.3计算每个重复串的互信息,如果互信息达到阈值,则转入步骤3;
步骤2.4如果互信息没有达到阈值,则将该串过滤掉;
步骤2.5如果该串在双字串白名单里,则转入步骤3;
步骤2.6对该串用分词程序进行分词;
步骤2.7如果分词后的词性组合在双字串词性统计表里,则转入步骤3;
步骤2.8如果分词后的词性组合不在双字串词性统计表里,则过滤此串。
4.根据权利要求1或2所述的面向互联网的有意义串的提取方法,其特征是所述对字符串进行串外分析包括:计算字符串的熵值,判断熵值是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;具体步骤为:
步骤3.1计算字符串的熵值,判断熵值是否达到设定的阈值;
步骤3.2如果达到阈值,转入步骤4;
步骤3.3如果熵值未达到阈值,则将其过滤掉。
5.根据权利要求6所述的面向互联网的有意义串的提取方法,其特征是所述对字符串进行串外分析包括:计算字符串的熵值,判断熵值是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;具体步骤为:
步骤3.1计算字符串的熵值,判断熵值是否达到设定的阈值;
步骤3.2如果达到阈值,转入步骤4;
步骤3.3如果熵值未达到阈值,则将其过滤掉。
6.根据权利要求1或2所述的面向互联网的有意义串的提取方法,其特征是所述对字符串进行串间分析包括:对所有字符串进行排序,计算排序后的相邻两串之间的重合率,并根据串和串之间的组成关系,把重合率大于阈值的邻串对划分成若干种类型,并分别对每种类型进行分析,并过滤掉不符合要求的字符串,进而得到有意义串;具体步骤为:
步骤4.1对所有字符串进行排序,计算排序后每一对相邻串的重合率;
步骤4.2如果重合率大于阈值,根据相邻两串之间的组合关系,将每一对相邻串划分到其所属的类型;如果重合率小于阈值,则不统计该相邻串的类型;
步骤4.3如果该相邻串属于A-AB型数据,计算A串和AB串的频率比值;根据频率比值的大小来确定如何对A串,AB串处理;
步骤4.4如果连续两个相邻串属于A-AB-ABC型数据,根据A串,AB串,ABC串的频次的组合关系来确定如何对A串,AB串,ABC串进行处理;
步骤4.5如果连续两个相邻串属于A-AB-AC型数据,根据A串,AB串,AC串的频次的组合关系来确定如何对A串,AB串,AC串进行处理;
步骤4.6如果该相邻串属于最长公共子串仅为1的类型,则过滤掉相邻串中长度较小的字符串,保留长度较长的字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010179684.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于移动存储设备的认证系统
- 下一篇:资料结构化处理系统及方法