[发明专利]基于LDA的网络舆情文档自动摘要方法有效

申请号：	201810585763.5	申请日：	2018-06-08
公开（公告）号：	CN108874775B	公开（公告）日：	2022-06-24
发明（设计）人：	孙健;朱煜松;陆川;张明	申请（专利权）人：	成都云数未来信息科学有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06F16/953
代理公司：	北京天奇智新知识产权代理有限公司 11340	代理人：	杨春
地址：	610000 四川省成都市双流***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 lda 网络舆情文档自动摘要方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于LDA的网络舆情文档自动摘要方法，包括步骤：确定需要抽取的摘要个数n；利用训练文档集产生LDA主题模型；将文档分成句子存入数组Sens中；建立一个空的数组Sums；遍历语料集中的每一个句子，计算句子的MMR权重，句子和数组间的相似度，相似度用来解释MMR权重公式；遍历完成后，选择Sens中MMR权重最大的句子，加入Sums，并从Sens中剔除；如果Sums中的句子个数等于要抽取的摘要个数n，则进入下一步骤，否则返回上一步骤；输出Sums中的句子，作为本次自动摘要的结果。本发明通过基于LDA的相似度计算方法，提高了摘要句与主题的相关性；平衡了相关性和多样性，对于网络舆情文档等多主题的文档具有非常好的效果。

技术领域

本发明属于机器学习和自动摘要技术领域，具体涉及基于LDA的网络舆情文档自动摘要方法。

背景技术

自动摘要是指从文档中抽取能准确全面地反映文档中心内容的简洁连贯的句子或短文。对于网络舆情文档而言，其文档内容表达的主题信息通常并不单一，可能围绕一个核心主题，并向外发散了若干个非核心主题，或者说子主题，是一个“1+N”的模式。

传统的自动摘要方法只计算文档的句子的重要性，没有反映文档核心主题和非核心主题在文档中的分布信息和重要程度，更没有对文档的主题特征进行提取分析处理，并且在摘要句的抽取过程中，不能消除重复或者相似程度较高的句子对摘要的影响，因此很难处理网络舆情文档。

传统自动摘要方法对网络舆情文档处理的不足，其主要是未能平衡相关性和多样性；相关性是指与原文档主题的相关程度，相关性越大就越能反映文档的主题信息。而多样性则是评价摘要与原文档的多个主题的覆盖程度，多样性越大就越能全面覆盖到文档的各个主题，防止摘要过度集中在核心主题，而忽视了非核心主题在文档中的作用。

为了解决以上问题我方研发出了一种基于LDA的网络舆情文档自动摘要方法。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于LDA的网络舆情文档自动摘要方法，利用LDA反映句子之间的主题相似度，并通过MMR去除摘要句子的冗余。

本发明通过以下技术方案来实现上述目的：

基于LDA的网络舆情文档自动摘要方法，包括以下步骤：

(1)确定需要抽取的摘要个数n，进入下一步骤；