[发明专利]基于遗传算法的网络文本分割方法有效
申请号: | 200910219163.8 | 申请日: | 2009-11-26 |
公开(公告)号: | CN101710333A | 公开(公告)日: | 2010-05-19 |
发明(设计)人: | 蔡皖东;赵煜 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/12 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 黄毅新 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 遗传 算法 网络 文本 分割 方法 | ||
技术领域
本发明涉及一种网络文本分割方法,特别是基于遗传算法的网络文本分割方法,适用于对网络短篇幅文本的分割。
背景技术
网络文本分割技术是网络舆情监控、网络文本情感分析的重要技术手段,有助于发现网络文本中深层次语义信息。
文献“基于多元判别分析的文本分割模型,软件学报,2007,18(3),P 555-564”公开了一种利用词频信息进行文本分割的方法。该方法采用多元判别分析方法,利用词频信息以向量空间模型表示文本,考虑分割单元内部距离、分割单元间距离、分割单元长度等3个因素定义了4个全局评价函数,实现对文本分割模式的全局评价。但是,针对网络文本中的短篇幅文本,由于文本中存在数据稀疏现象,无法提供足够的词频信息;同时,由于词频信息是浅层语义信息,仅依据词频计算分割单元之间的相似度,影响相似度计算的准确性,进而影响文本分割结果的准确性。
发明内容
针对现有技术方法网络短篇幅文本分割准确率较低的缺陷,本发明提出一种基于遗传算法的网络文本分割方法,利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(Latent Dirichlet allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,可以提高网络短篇幅文本分割准确率。
本发明的技术方案是:一种基于遗传算法的网络文本分割方法,其特点是包括以下步骤:
(a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;
(b)采用层次聚类方法对扩展语料库进行聚类,确定子主题的数目,采用Gibbs采样方法估计扩展语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;
(c)对待分割文本进行分词、词性标注、命名实体识别、词义消歧的文本预处理,统计 文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇所属的子主题类型,句子表示为子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sjj表示句子j中词汇属于子主题j的频率;
(d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体;根据公式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910219163.8/2.html,转载请声明来源钻瓜专利网。