[发明专利]面向互联网的有意义串的提取方法及装置有效

申请号：	201010179684.8	申请日：	2010-05-24
公开（公告）号：	CN101853284A	公开（公告）日：	2010-10-06
发明（设计）人：	王巍;杨武;苘大鹏;董红臣	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向互联网有意义提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及的是一种利用计算机技术辅助网络信息智能分析或舆情管理的技术，具体的讲是从海量的互联网网页和论坛信息中快速准确高效的提取有意义串的方法和系统。

背景技术

文本表示是基于内容的文本处理的首要步骤。文本表示中的特征项是影响文本分类和聚类结果的重要因素。目前常用的文本特征项主要有字，词，短语，语义等。从理论上讲，语义概念(语义集)高于短语(句法集)，短语高于词(词语集)，词高于字(字符集)。通常语义概念可以借助于语义词典(同义词，近义词词典等)或进行潜在语义索引获取。然而大规模、覆盖面广的语义资源较难获取，潜在语义索引的算法复杂度很高，从而限制了语义概念在文本表示中的使用。目前最常用的文本表示模型是向量空间模型，向量空间模型以词作为特征。以词作为特征的缺点在于：它只简单地考虑一个词是否在文档中出现及其出现频度，把特征看作是独立存在的，而完全忽略了文本上下文间的语义关系，也没有考虑特征之间的先后次序。有意义串是具有独立语义，紧密耦合，具有广泛流通性的完整的语言单元。有意义串实际上就是以短语为特征，以短语为特征的文本表示优于以词做特征的文本表示。

目前对有意义串的分析的研究主要有两大方向，串内分析和串外分析。串内分析是通过分析本串的结构特征以及组成方式，来判断串是否满足有意义串的要求。目前常用的串内分析方法主要是通过简单互信息，位置成词概率，相邻字对的耦合性来判断。简单互信息^[1]比较了一个模式串及其部分子串的频度，它可以衡量模式串各部分之间的相关度。当从该模式串所取的子串的长度过短时，由于统计较短子串的频次没有意义，此时简单互信息的作用也失效了。位置成词概率^[2]表示某个汉字在某个位置(词首或词尾)出现的概率。由于汉字用法比较丰富以及不规则新词的不断出现，不能完全采用某个汉字的位置乘此概率来筛选模式串。在切分好的训练语料中扫描所有出现过的连续子对，统计出每组字对出现的总次数以及该字对作为某个词子串的总次数，后者与前者的比称作相邻字对的耦合度^[3]。如果耦合对比较大，表明该字对很可能出现在一个串中。当选取的词对为偶然组合的无意义词对时，该字对作为某个词子串的总次数出现次数会很少，计算耦合度会过滤掉一些实义的串。

串外分析是分析紧邻串的上下文的信息，以判断串的语义环境是否丰富。目前常用的串外分析主要是通过邻接类别，熵值，邻接对熵概念来判断。邻接类别^[4]是串上文和下文中出现的不同字符数量的最大值。邻接类别只考虑字符串左边和右边的不同字符的种类数量，而没有考虑每个种类的字符出现的频次。熵值^[1][2][3]可以反映出该串语用环境的丰富程度，度量一个串的独立性，但是当串出现的频次整体都不多时效果不太明显，而且熵值计算没有考虑上下文的组合关系。串的上文和下文的组合称为邻接对。邻接对熵^[3]是对邻接对求熵值。如果邻接类别，熵值，邻接对熵都比较大，则一个串很有可能成为一个有意义串。

概括而言，已有的有意义串提取算法存在以下缺点：1)串内分析中采用互信息作为特征不能很好的筛选双字串，对于双字串来说，去掉首字和去尾字的串实际上是单字串，计算单字出现的频次没有意义；2)串内分析和串外分析都没有考虑串和串之间的差异性，提取的有意义串中会有很多串表征的内容相似，造成许多有意义串的语义相似和冗余。

与本发明相关的公开报道主要包括：

[1]胡吉祥.基于频繁模式的消息文本聚类研究[D].中科院研究生院硕士学位论文.2006.44-46；

[2]贺敏.面向互联网的中文有意义串挖掘[D].中国科学院计算技术研究所硕士论文.2007；

[3]200710120755.5，一种面向互联网的有意义串的挖掘方法和系统；

[4]haodi feng.Accessor Variety Criteria for Chinese Word Extraction[J].Computational Linguistics，30(1)，2004。

发明内容

本发明的目的在于提供一种能够有效的提取新闻网页和论坛上的有意义串，并可以应用于舆情监管系统中的面向互联网的有意义串的提取方法。本发明的目的还在于提供一种面向互联网的有意义串的提取装置。

本发明的目的是这样实现的：

本发明的面向互联网的有意义串的提取方法包括下列步骤：

步骤1：提取重复字符串；

步骤2：通过串内分析过滤所述字符串；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。