[发明专利]一种基于上下文语义感知的抽取式文档自动摘要方法有效
申请号: | 201910946636.8 | 申请日: | 2019-10-06 |
公开(公告)号: | CN110728144B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 熊才权;沈力;王壮;周磊;陈曦 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/289;G06F40/30;G06N3/0464;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张辰 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 语义 感知 抽取 文档 自动 摘要 方法 | ||
本发明公开一种基于上下文语义感知的抽取式文档自动摘要方法,该方法主要解决传统的算法缺乏对于句子在不同的语境中的辨识度的问题。本发明首先用LDA主题模型计算文档中的主题概率分布,进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征,进而计算每一个句子与特征的相似度,然后最后把每一个句子的主题相似度和特征相似度的值相加,得到最终的句子得分,按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型,确定了一种主题摘要方法,能够更加精确的分析其不同语境中的句子含义,也为其他的文档自动摘要方法提供了一种计算参考方法。
技术领域
本发明属于自然语言处理领域,涉及一种基于上下文语义感知的抽取式文档自动摘要方法,是将LDA主题模型与深度学习的方法运用到自动文本摘要中,解决目前文档自动摘要缺乏对于语义信息理解的问题。
背景技术
随着现代互联网技术的持续发展,每天所产生的数据量都是十分爆炸的,如何从海量的数据中提取有效的信息已经成为迫切需求,自动文本摘要正是利用计算机对大量数据内容进行精炼,生成简洁、明了的摘要来代替整个文档内容的一项技术。根据算法类型的不同,主流的技术分为传统的基于词频统计的算法和基于中心性的算法。
其中,传统的基于词频统计的算法主要有TF-IDF和基于词汇链的方法,其本质是利用词语在文档中出现的次数来判断其所在的句子的重要程度,从而生成摘要,但是传统算法存在缺乏词语在不同语境中的辨识度,从而导致摘要的效果不是很理想。基于中心性的算法包括LexRank、TextRank等,该类算法主要是将词或句子作为图的节点,词或句子之间的相似度作为边,利用PageRank对该无向加权图进行递归计算一直到收敛。该类算法计算量比较复杂,运行效率较低,不利于工业大规模推广。
因此,现有技术中亟需一种高速有效,且对传统算法有参考意义的文档自动摘要方法。LDA是一种基于贝叶斯理论的概率生成模型,利用Gibbs抽样的方法将文档转化为“文档-主题-词语”的三层模型来表征潜在的主题信息,CNN卷积神经网络是深度学习里的一种提取特征的算法,基于此,本发明提出一种基于上下文语义感知的抽取式文档自动摘要方法,在更深层次的语义环境中寻找上下文之间的内在联系,从而改善摘要的质量。
发明内容
本发明的目的是:为了解决在文档自动摘要中缺乏对于上下文语义关系的理解,从而导致摘要的结果单一、片面,从而提出一种基于上下文语义感知的抽取式文档自动摘要方法。
本发明首先用LDA主题模型计算文档中的主题概率分布,进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征,进而计算每一个句子与特征的相似度,然后最后把每一个句子的主题相似度和特征相似度的值相加,得到最终的句子得分,按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型,确定了一种主题摘要方法,能够更加精确的分析其不同语境中的句子含义,也为其他的文档自动摘要方法提供了一种计算参考方法。
为了达到上述目的,本发明所采用的技术方案是:一种基于上下文语义感知的抽取式文档自动摘要方法,其特征在于:抽取式文档自动摘要是以句子在文档中的重要程度来打分,本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据,最终形成摘要,所述方法包含如下步骤:
步骤1:对所给的初始文档进行预处理,具体步骤包括:
步骤1.1:对初始的文档进行分词、分句;
步骤1.2:根据步骤1.1所得到分词的结果,去除语气助词、副词、介词、连词这些自身并无明确意义的停用词;
步骤1.3:指定初始文档的主题数K,每个主题下的词的数量为V;
步骤1.4:指定超参数向量的值,其中的值为范围中的随机值、的值为中的随机值,为K维向量,为V维向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910946636.8/2.html,转载请声明来源钻瓜专利网。