[发明专利]一种基于双向注意力机制的文本摘要生成方法在审
申请号: | 202310097904.X | 申请日: | 2023-02-07 |
公开(公告)号: | CN116304002A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 袁炜东;陈平华 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06N3/0442;G06N3/0475;G06N3/096 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 丁耀鹏 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 注意力 机制 文本 摘要 生成 方法 | ||
本发明公开了文本摘要技术领域的一种基于双向注意力机制的文本摘要生成方法,包括预处理,预处理步骤一般就是分词,去噪,词数字化,为了更好的提取文本特征,设计了基于知识迁移融合多种特征的文档词向量。一方面,为了得到更高质量的词嵌入,加入外部知识集进行训练,再迁移在训练集上做增量训练;另一方面,为了融入好的传统特征,对增量训练完的词嵌入和传统特征进行融合,如文本分类、文本摘要等提供了好的底层特征,在文本摘要任务中,为了获取文本上下文依赖关系,采用了两层双向LSTM编码,从词和句子层面捕获语义特征,动态生成上下文语境,让工作方式更接近人类,设计并实现了基于注意力机制的文本摘要原型系统。
技术领域
本发明涉及文本摘要技术领域,具体为一种基于双向注意力机制的文本摘要生成方法。
背景技术
随着互联网技术的快速发展,计算机和智能手机等设备的普及,信息媒体和传播方式已经发生了巨大的变化,人们越来越青睐于从互联网上获取他们需要的信息。2018年年初,来自中国互联网络信息中心的一份网络调查报告显示,截至到2017年年底,中国网民数量离8亿又更近一步,2017年一年新增网民四千多万人;普及率更是超过了55%,在2016年底的基础上,增长超过两个百分点[1。同时,上网使每个人都成为了信息的生产者、传播者、获取者,网上资源指数增长,信息铺天盖地,人们应接不暇。很多时候,人们发现,面对网络上的大量数据,选择并找到自己需要的或重要的一些相关信息,要浪费掉很多的时间和精力。换句话说,互联网时代是一个信息超载的时代。丰富的信息资源使人们获得更全面的信息成为可能,同时人们在获取有效资源的过程中也面临着许多挑战。一端是海量的数据,一端是人们殷切的需求,如何快速精准定位所需信息,如何帮助用户有效地浏览和查阅海量的网上资源,如何有效地对文档做摘要,过滤掉不重要的信息,是一个刻不容缓、急需解决的问题。
文本摘要技术是从大量文本(如文本文档、文章或博客)中生成简洁而重要的信息的方法。摘要是描述一组段落或文本文件的一小段总结性的句子,文本摘要旨在消除文档冗余内容,同时保留原始文档的关键内容,对指定文档提取简洁而重要的信息。生成的摘要通常少于原始文本数据的40%,对于较长的文本,这个比例会进一步减少。摘要应保留文件中存在的重要数据,应该是可控、简短和简洁的。根据单词和句子的位置等各种参数,以多种方式对文本数据进行概括。在网上冲浪时,这些经过概括的少量语句,提供了简洁明确的重要信息;用户可以将摘要看作原来的文本信息的一个替代。通过文本摘要,用户不需要逐个点击所有文档,方便获取喜爱的信息,从而减少信息干扰,加快阅读速度。在搜索引擎的搜索和索引中,使用短小精悍的摘要代替检索全文,或简单地对抽象文本进行索引,大大提高了处理效率。文本摘要技术也被用于搜索引擎查询结果的显示,并呈现给用户通过返回一个简单的搜索结果的摘要,允许用户选择是否要点击结果摘要跳转到原始的网页。
然而重症患者在进行护理时,通常需要将患者进行移位,如果直接将患者抬起,无疑会增加患者的痛苦,而且对于有些患者,轻易将其抬起都会造成二次伤害,为此,我们提出一种基于双向注意力机制的文本摘要生成方法。
发明内容
本发明的目的在于提供一种基于双向注意力机制的文本摘要生成方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于双向注意力机制的文本摘要生成方法,包括以下步骤;
步骤一、预处理,预处理步骤一般就是分词,去噪,词数字化;
步骤二、词嵌入,自然语言处理和机器学习结合时,都将面临将符号、符号序列或符号结构转换为机器学习能使用的向量的问题;
步骤三、第一种结构类似于前馈NNLM,去掉非线性隐层,所有的词(不只是投影权重矩阵)共享投影层;
步骤四、连续词袋模型,第一种结构类似于前馈NNLM,去掉非线性隐层,所有的词(不只是投影权重矩阵)共享投影层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310097904.X/2.html,转载请声明来源钻瓜专利网。