[发明专利]一种基于TextRank与多维语义特征融合的自动摘要方法及系统在审
申请号: | 202210742295.4 | 申请日: | 2022-06-28 |
公开(公告)号: | CN115017300A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 徐飞;贠曼;刘军;彭佳佳 | 申请(专利权)人: | 西安工业大学;中国人民解放军63768部队 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06F40/289;G06F40/258;G06F40/211;G06F40/194;G06F40/166;G06F40/151;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李鹏威 |
地址: | 710021 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 textrank 多维 语义 特征 融合 自动 摘要 方法 系统 | ||
本发明公开了一种基于TextRank与多维语义特征融合的自动摘要方法及系统,通过对预处理后的新闻进行新闻关键词提取、新闻主题的获取、句子的特征信息以及句子的向量表示,将句子与主题相似度、句子与标题相似度、关键词覆盖率、是否含特征词四种因素作为影响句子权重的影响因素,并将它们和TextRank原分数以一种优化的组合应用到自动摘要中,将TextRank分数和句子特征分数相加取平均数得到句子综合分数,利用MMR算法计算句子间的相似度来去除冗余度较高的句子,最后根据相似度排序按设定个数取前n个句子作为摘要,高了原有公式去除冗余句的效率,能够准确获取新闻的摘要内容,大大提高了新闻内容概况准确性,从而帮助人们减少阅读的时间。
技术领域
发明属于自然语言处理技术领域,具体涉及一种基于TextRank与多维语义特征融合的自动摘要方法及系统。
背景技术
在如今的互联网时代,大量的新闻出现在人们的日常生活中,这就使得人们需要花费更多精力和足够时间在庞大的信息库中去搜索和甄别我们感兴趣的内容,使得我们对想要了解的信息资源的获取变得尤为不便,而文本摘要技术可以在不更改文章含义和不丢失其重要信息的前提下,将原本复杂且繁多的文本用一种简要的新闻文摘来表示,从而帮助人们减少阅读的时间。
目前,自动文摘实现方法主要分为抽取式方法和生成式方法。其中抽取式摘是从原文中直接抽取出能够代表该篇文章关键信息和其主体内容的句子,在不改变其语法结构的前提下将其作为摘要。而生成式摘要是根据对输入原始文本的理解来形成摘要,模型试图去理解文本的内容,可以生成原文中没有的单词,更加接近摘要的本质,具有生成高质量摘要的潜力。然而此方法不仅需要高质量的训练数据,且难度较大,生成出的的摘要经常出现语序错误、长度依赖等问题,摘要的质量还远远达不到实际应用的要求,因此研究如何完善抽取式摘要具有更重要的研究意义。
目前,抽取式摘要主要有基于主题建模、图模型、特征评分和序列标注四种方法。其中,基于图的方法是将句子看成是图的一个顶点,句子与句子间的相似度构成连接顶点的边,通过迭代计算句子权重来对句子排序从而得到摘要,该方法不需要训练数据,就可以直接利用文章自身信息得到摘要,因而成为目前的主流方法。经典的图模型算法TextRank于2004年Mihalcea首次提出,该方法通过迭代计算句子间相似度来对句子打分,以筛选出文本中的关键句子构成摘要。之后的研究都基于此方法改进而来。张璐等人认为句子中关键词的覆盖率越高,则该句子越重要,在DUC2002数据集上的ROUGE分数比TextRank提高了13%-30%。李峰等人将关键词扩展融入,使摘要的效果得到了提升,但忽略了其他主题、语义等其他影响摘要效果的因素。余珊珊人等人通过将标题,段落,特殊句子,句子位置和长度等信息引入到TextRank网络图的构造中,并提出了改进后的句子相似度计算方法,从而提高了TextRank算法的效果。S.Sehgal将文章与标题的相似度加入到句子的权重计算中,提高了文本摘要的准确性。曹洋等人分别比较了不同相似度计算方法的自动文摘效果,选择了其中最优的相似度计算方法,并结合句子位置、线索词与经典TextRank来计算句子的权重。余传明等人提出了基于最大边界相关度的抽取式文本摘要模型,该模型将最大边界相关度(MMR)与深度学习相结合,综合考虑句子与全文相似度、关键词以及位置信息等特征以抽取摘要。刘志明等人提出一种基于主题的情感摘要方法,通过LDA模型得到文章主题,再融合传统多特征来提取目的摘要。
上述的相关研究,虽然都对促进了抽取式摘要的发展,但在基于TextRank对句子打分时,都存在因素考虑不全的问题,仅考虑一种因素,或者虽然同时考虑了多种因素,但忽略了文章的主题因素。利用LDA模型抽取出文章主题但是忽略了新闻特征词对句子权重的影响。同时在针对特定领域的时候,上述相关研究生成的摘要可能并不包含该领域正真正关心的内容。
发明内容
本发明的目的在于提供一种基于TextRank与多维语义特征融合的自动摘要方法及系统,以克服现有技术的不足。
一种基于TextRank与多维语义特征融合的自动摘要方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学;中国人民解放军63768部队,未经西安工业大学;中国人民解放军63768部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210742295.4/2.html,转载请声明来源钻瓜专利网。