[发明专利]一种基于LDA和D2V进行摘要抽取的文本生成方法有效

专利信息
申请号: 201911391922.9 申请日: 2019-12-30
公开(公告)号: CN111159393B 公开(公告)日: 2023-10-10
发明(设计)人: 贾海涛;李清;任利;贾宇明;李建;许文波;刘芳;罗心 申请(专利权)人: 电子科技大学
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35
代理公司: 电子科技大学专利中心 51203 代理人: 邹裕蓉
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lda d2v 进行 摘要 抽取 文本 生成 方法
【说明书】:

发明提供一种基于LDA和D2V进行摘要抽取的文本生成方法,利用原本用于文章分类的LDA模型来做句子的主题分类,然后将每个主题的句子利用D2V模型继续句子向量化,然后计算句子的熵信息,选择最大熵信息的一个句子作为摘要句子。本发明相对于抽取数目由人工确定的方法比较而言,是由计算机来对抽取摘要句子的数目进行调整,总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。

技术领域

本发明涉及自动文本生成技术,具体涉及抽取式摘要抽取技术。

背景技术

目前,互联网正处于高速发展时期,网络信息也出现了爆炸式增长的情况。随着各种移动终端设备的流入,人们逐渐摒弃了纯手工文本,开始频繁使用电子文本进行工作、记录和交流等,尤其依赖于从网络上获取有效的信息资源。然而,网络环境中的信息资源数量极其庞大,杂乱无章,如何使得人们可快速、准确地从网络上获取有用的信息,是目前正在被积极研究的一个热点领域。自动文本摘要(简称自动文摘)技术作为该研究领域的一个重要分支,可从海量文本中提取出简短的关键信息来帮助人们快速理解原来的文本内容,有效节省了人们获取有用信息的时间和精力。近年来,自动文摘系统作为一个有力的辅助工具,在各个领域发挥了作用,包括网络信息检索、新闻、邮件和会议记录等,成功地帮助了人们更加快速高效的方式获取了他们想要的信息。

文本自动摘要是一个既传统又前沿的研究领域。自20世纪50年代自动摘要技术出现以来,每出现一波新技术浪潮,都会涌现出一大批相应的自动摘要新方法,然而效果一直与人工摘要有差距。在互联网大数据时代,文本信息的数量已经远远超出了人工处理的极限,自动摘要研究显得越发迫切和重要。深度学习方法在相关领域的出色表现,让研究人员看到了一丝曙光。但传统经典方法对深度学习方法仍有帮助作用。实际上自动摘要方法发展历程也印证了这一点,即,某些经典的文档特征和理念,无论是对于传统旧方法,还是对新兴方法,都极为有用,最出色的方法通常是结合了新旧理念的方法。研究的文本摘要在海量数据的信息提取中显得非常重要,减少文本冗余程度使得文本信息更利于人类进行信息的提取。

文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本中的主要信息,但是仅有不到原始文本一半甚至更少的篇幅。文本自动摘要是利用计算机生成文本摘要的理论方法和技术。自动文本摘要问题按照文档数量可分为单文档摘要和多文档摘要问题。其中单文挡摘要是为单个文挡形成摘要,类似于文章标题,将文章中最重要的内容压缩的形式呈现出来。多文档摘要则是为多个主题相同或相近的文档产生摘要,有别于单文档摘要,除了需要剔除多份文档中大量的冗余信息之外,还要能够识别出不同文档中的独特内容,使得生成的摘要能够尽可能的简介完整。按照实现方式可分为抽取式和抽象式。其中抽取式摘要通过抽取出原文中己存在的重要句子组成摘要,而抽象式摘要则是通过理解相关语义信息,使用自然语言技术生成新的句子作为摘要。摘要问题的恃点是输出的文本要比输入的文本篇幅小很多,但却蕴藏着非常多的有效信息在内。

目前传统的文本摘要抽取的方法是依赖于抽取式的摘要,主要是基于简单统计的方法,根据文章中的句子与词语出现频率等因素判断文本中的句子的重要程度,以此抽取出来的句子作为文本的摘要。在研究初期,人们通过统计简单直观的文本特征,如词频、词位置、特定的线索词、标题等,从文档中识别重要句子组成摘要。目前比较实用的抽取式的摘要抽取的方法是textrank和通过句子聚类/分类等方法。在这类方法中,抽取式自动摘要问题被转化为一个二元分类问题。一个句子要么是摘要句,要么是非摘要句。首先人工将重要句子标注出来,然后提取这些句子的特征,学习算法通过统计分析学习,得到特征与句子重要性的关系,进而得到合适的分类器。向分类器输入句子,可得到句子的重要性得分。依据得分高低,即可抽取重要句子,生成摘要。较为广泛使用的算法包括朴素贝叶斯算法、决策树算法、最大熵算法、隐马尔科夫算法等。摘要抽取的结果上的效果在一定程度上是体现了文本信息上的表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911391922.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top