[发明专利]基于遗传算法的网络文本分割方法有效
申请号: | 200910219163.8 | 申请日: | 2009-11-26 |
公开(公告)号: | CN101710333A | 公开(公告)日: | 2010-05-19 |
发明(设计)人: | 蔡皖东;赵煜 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/12 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 黄毅新 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于遗传算法的网络文本分割方法,用于对网络短篇幅文本的分割,所述方法利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(Latent Dirichlet allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,提高了网络短篇幅文本分割准确率。 | ||
搜索关键词: | 基于 遗传 算法 网络 文本 分割 方法 | ||
【主权项】:
1.一种基于遗传算法的网络文本分割方法,其特征在于包括以下步骤:(a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;(b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;(c)对待分割文本进行分词、词性标注、命名实体识别、词义消歧的文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇所属的子主题类型,句子表示为子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sjj表示句子j中词汇属于子主题j的频率;(d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体;根据公式C oh = 1 - Σ n = 1 j 1 k Σ s j ∈ b n Σ l = 1 T ( s il - a nl ) 2 ]]> 计算语义段落内的凝聚性;式中,
,|bn|表示第n个语义段落中包含的句子数,an表示语义段落对应的平均向量,ant是该向量的第t个分量;根据公式D is = Σ n = 1 j | b n | k Σ l = 1 T ( a nl - c l ) 2 ]]> 计算语义段落间的发散性;式中,c l = 1 k Σ i = 1 k s il ; ]]> 根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数值,计算公式如下:
式中,Pt表示扩展种群,用于存储迭代中的最优解;种群选择过程中,首先采用精英保留策略,保留种群及扩展种群中的精英个体,直接进入下一代进化;然后采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度值,选择适应度小的个体进行交叉和变异操作;交叉过程采用单点交叉方法,为了防止近亲繁殖,当个体间汉明距离超过阈值时,才允许在种群和扩展种群之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%;根据种群的相似度自适应调节变异算子;种群的相似度计算公式如下:
当相似度超过阈值且持续50轮,则结束迭代过程,选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910219163.8/,转载请声明来源钻瓜专利网。