[发明专利]一种基于图模型的无监督自动文摘提取方法有效
申请号: | 201911321569.7 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111177365B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 赵卫东;陈晓露;王铭 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06K9/62 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 种艳丽 |
地址: | 266590 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 监督 自动 文摘 提取 方法 | ||
本发明公开了一种基于图模型的无监督自动文摘提取方法,属自然语言处理领域。本发明使用TF‑IDF模型得到样本特征词的IDF值,输入到PV‑IDF模型训练得到样本句子向量;利用关键词和句子位置等信息得到句子初始权重,生成惩罚矩阵;将句子初始权重输入图模型中初始化节点权重,句子向量相似度作为节点连线权重,迭代图模型得到句子得分并排序;将得分前n个候选文摘句利用惩罚矩阵筛选,得到文摘句;使用PV‑IDF模型训练句子向量计算相似度,初始化图模型节点权重,并使用惩罚矩阵对文摘句进行筛选,解决了现有无监督自动文摘方法语义相关度低,冗余度高的问题,在R1和RL指标有了显著的提高,有效提高了文摘质量。
技术领域
本发明属于自然语言处理领域,具体涉及一种基于图模型的无监督自动文摘提取方法。
背景技术
随着大数据时代的到来,如何从海量的信息中快速准确的提炼出关键信息已经成为一个亟需解决的重要问题。文本摘要在新闻信息提取、科技文献检索、商品评论分析等领域都有重要应用。随着深度学习理论和方法的快速发展,已广泛应用于文本特征提取等自然语言处理领域。自动摘要可以从很多角度进行分类,按照有无监督数据来划分,可以分为有监督和无监督自动文摘方法。有监督摘要方法需要从文件中选取主要内容作为训练数据,将文摘视为句子层面的分类问题,需要大量的注释和标签数据,会消耗大量的人力资源和时间成本。无监督的文本摘要系统不需要任何监督数据,仅通过对文档进行检索即可形成摘要。但是目前的无监督摘要没有充分挖掘和利用语义之间的关系,对文档数据利用不充分,文摘冗余度高,存在诸多局限性,为了解决无监督自动文摘方法存在的主要问题,本发明提出了一种适用于中文文本摘要的自动提取算法。
目前,有关无监督的自动文摘算法的研究有很多。其中,iTextRank算法在图模型节点构建时考虑引入标题、段落、句子位置和长度等信息,有效提高了TextRank算法文摘质量,但并未考虑文本语义信息。而DK-TextRank算法使用Doc2Vec训练句子向量,并使用K-means算法对句子向量进行聚类,该算法考虑了文章语义对文摘的影响,但首先使用K-means聚类会导致信息损失,某些文摘句在输入图模型之前就会被提前删除。杨山等人使用Word2Vec模型训练词向量,并利用句子中词向量叠加求均值作为句子的向量表示,输入TextRank图模型进行迭代,该算法考虑使用了Word2Vec求均值的方法来表示含有语义信息的句子向量,但利用该方法得到的句子向量无法准确表示句子中的语义信息,从而影响文摘质量。
发明内容
针对现有的无监督文摘技术语义相关度低、文摘句冗余度高的问题,本发明提出了一种基于图模型的无监督自动文摘提取方法,提高了现有无监督自动文摘质量。
为了实现上述目的,本发明采用如下技术方案:
一种基于图模型的无监督自动文摘提取方法,包括如下步骤:
步骤1:对测试数据以及语料库的文本进行预处理;
步骤2:使用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率指数)模型,训练得到样本特征词频率和逆文档频率;
步骤3:将预处理后的文本和特征词逆文档频率输入到PV-IDF(Inverse DocumentFrequency of Paragraph Vectors,逆文档频率段落向量模型)模型中,训练得到样本句子向量;
步骤4:利用步骤2得到的样本特征词频率,结合句子位置和标题相似度,计算得到样本句子综合权重;
步骤5:利用步骤3训练得到的样本句子向量,计算得到样本句子相似度矩阵ω,利用步骤4得到的样本句子综合权重,计算得到惩罚矩阵ω′ij;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911321569.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向数字字符的数据编码方法、解析方法及系统
- 下一篇:一种智慧旅游系统