[发明专利]一种基于话题多样性的文本数据观点摘要挖掘方法有效
申请号: | 201810166896.9 | 申请日: | 2018-02-28 |
公开(公告)号: | CN108268668B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 廖祥文;陈国龙;赵楠;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/36;G06F16/33 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 话题 多样性 文本 数据 观点 摘要 挖掘 方法 | ||
本发明提供一种基于话题多样性的文本数据观点摘要挖掘方法,其包括以下步骤:步骤S1:对话题文本进行预处理;步骤S2:输入话题语料集和背景语料集;步骤S3:提取话题语料集的话题属性;步骤S4:将得到的话题属性添加情感极性,用于对句子向量化;步骤S5:将得到的话题属性作为评价对象,采用面向多评价对象的动态词序列情感分析方法分析句子中包含的评价对象的情感极性,得出句子包含的情感属性特征,将一个句子进行特征向量化;步骤S6:利用步骤S5得到的文本句子特征向量构建多样性目标函数。能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。
技术领域
本发明涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论摘要等实际应用场景。
背景技术
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,通过文本中所有单词的多样性考虑文本主旨的多样性,没有考虑文本主旨关键词对观点摘要的影响,在一定程度上限制了模型的后续研究。
当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。
一般而言,观点摘要的两个基础性质是:1)保证得到的摘要囊括话题文本主旨;2)得到的摘要应该覆盖富有情感色彩的话题主旨。不足的是,现有的多数模型考虑利用文本句子所有单词的多样性来保证观点摘要涵盖文本主旨,通过单词的多样性来保证摘要的多样性,但单词的多样性并不能保证观点摘要囊括了源文本的主旨,与主旨不相关的单词会影响最终生成的观点摘要,而且现有研究方法通过整个文本句子的情感信息从而刻画摘要情感信息,许多不相关文本主旨的情感也被考虑进来,这两者因素导致最终得到的摘要包含许多与文本主旨不相关的内容和情感信息。
因此,人们迫切希望能有一种更加高效准确的观点摘要研究方法,该方法通过实体抽取方法从源文本中提取话题属性单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以话题属性为评价对象的情感信息,并通过融合句子重要性的话题属性多样性方法来挑选句子组合成观点摘要,使得整个观点摘要包含的带情感信息的文本主旨最多。
发明内容
本发明的目的是解决海量观点文本数据的压缩问题,提出一种基于话题多样性的观点摘要方法,从话题属性及其情感信息出发解决当前研究方法存在的问题,能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810166896.9/2.html,转载请声明来源钻瓜专利网。