[发明专利]一种基于句义结构模型的文本数据生成观点摘要的方法及系统有效
申请号: | 201911205403.9 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110889292B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 廖祥文;李晓滨;陈志豪;陈癸旭;吴运兵 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/34 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 模型 文本 数据 生成 观点 摘要 方法 系统 | ||
本发明涉及一种基于句义结构模型的文本数据生成观点摘要的方法及系统,首先提取网站上的待处理数据集,并对其进行预处理;然后构建话题语料集和背景语料集,并提取话题属性;接着进行语义权值计算,得到句子的语义权重值;再进行关联权重计算,得到句子的关联权重值;最后利用话题属性、语义权重值以及关联权重值在话题中抽取观点摘要。本发明从话题属性及其情感信息出发解决当前研究方法存在的问题,能够高效准确地得到话题文本的观点摘要,能够应用于更大规模数据集应用场景。
技术领域
本发明涉及互联网大数据分析技术领域,特别是一种基于句义结构模型的文本数据生成观点摘要的方法及系统。
背景技术
随着互联网的发展,人们从互联网上获取的消息越来越多,微博、网站新闻与商品评论等领域的数据在人们的网络生活中所占比例越来越大。为了带给人们更加高效的阅读与筛选体验,网络文本往往会提取出摘要部分供用户预览,早期这个工作由人工完成,随着数据日益庞大,人们开始采用机器自动提取的方法来生成摘要。
自动生成摘要的传统方法包括采用观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,通过文本中所有单词的多样性考虑文本主旨的多样性,没有考虑文本主旨关键词对观点摘要的影响,在一定程度上限制了模型的后续研究。
当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。
现有的多数模型考虑利用文本句子所有单词的多样性来保证观点摘要涵盖文本主旨,通过单词的多样性来保证摘要的多样性,但单词的多样性并不能保证观点摘要囊括了源文本的主旨,与主旨不相关的单词会影响最终生成的观点摘要,而且现有研究方法通过整个文本句子的情感信息从而刻画摘要情感信息,许多不相关文本主旨的情感也被考虑进来,这两者因素导致最终得到的摘要包含许多与文本主旨不相关的内容和情感信息,使得生成的摘要不准确,进而影响用户的上网体验。
发明内容
有鉴于此,本发明的目的是提出一种基于句义结构模型的文本数据生成观点摘要的方法及系统,通过实体抽取方法从源文本中提取句法相关单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以有效词为评价对象的情感信息,并通过基于句子重要性的观点摘要选择方法来挑选句子组合成观点摘要,使得整个观点摘要情感最为鲜明,所提取出的摘要与文本主旨最贴切。
本发明采用以下方案实现:一种基于句义结构模型的文本数据生成观点摘要的方法,具体包括以下步骤:
提取网站上的待处理数据集,并对其进行预处理;
构建话题语料集和背景语料集,并提取话题属性;
进行语义权值计算,得到句子的语义权重值;
进行关联权重计算,得到句子的关联权重值;
利用话题属性、语义权重值以及关联权重值在话题中抽取观点摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911205403.9/2.html,转载请声明来源钻瓜专利网。