[发明专利]一种融合全局和局部语义特征的文本摘要生成方法及系统在审
申请号: | 202310096168.6 | 申请日: | 2023-02-10 |
公开(公告)号: | CN116069924A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 袁非牛;戴维;汪春梅 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F18/25;G06N3/08;G06N3/0455;G06N3/0442;G06N3/0464 |
代理公司: | 上海唯智赢专利代理事务所(普通合伙) 31293 | 代理人: | 刘朵朵 |
地址: | 200234 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 全局 局部 语义 特征 文本 摘要 生成 方法 系统 | ||
本发明公开了一种融合全局和局部语义特征的文本摘要生成方法及系统,属于自然语言处理技术领域。该方法包括:接收待生成摘要的文本,并进行预处理;将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块,得到全局语义特征向量和局部语义特征向量;将其输入注意力机制中进行融合,得到上下文向量;根据得到的所述上下文向量,输入基于指针机制的解码层,得到最终生成的文本摘要。本发明融合局部语义特征与全局语义特征,加强了生成摘要的准确性和模型对语义信息提取的能力;使用基于指针机制的解码器,同时从原文和词表中抽取词汇组成最终生成的摘要,解决文本摘要领域常见的词表外单词OOV问题。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种融合全局和局部语义特征的文本摘要生成方法及系统。
背景技术
随着互联网时代的发展,大量的信息包括图片、视频、文本等不断涌现在网络上,影响着人们的生活。然而,在人们享受着信息给我们带来便利的同时,信息超载的问题越来越常见,如何从大量的信息当中准确的提取出最主要的内容显得尤为重要。文本信息作为互联网上最为常见的信息形式之一,如何准确的帮助用户从海量文本信息中获取最主要的信息成为目前亟待解决的问题。
自动文本摘要技术是自然语言处理技术中的一个分支,在输入一长串的文本后,通过机器快速提取出文本的主要内容并总结成摘要,可以帮助用户节省时间并提高阅读效率。目前自动文本摘要技术已经在许多领域诸如新闻标题生成、关键信息检索和舆情检测等领域得到了广泛的应用。
根据自动文本摘要的生成方式,可将其分为抽取式文本摘要和抽象式文本摘要。抽取式文本摘要通过直接从原文本中抽取词语和句子组成最终生成的摘要,此方法在摘要生成的句子可读性和流畅性等方面有着较好的表现。抽象式文本摘要通过从建立的词表中抽取单词组成最终生成的摘要,随着近些年深度学习的发展,抽象式文本摘要在语句生成的准确率和可读性方面均有着较好的发展。与此同时,摘要生成方法依旧存在着许多问题,诸如语义表达不清和词表外单词(out of vocabulary,OOV)等问题亟待解决
发明内容
为了解决当前技术中存在的缺陷,本发明引入卷积神经网络加强对文本全局语义特征的提取,并通过keybert关键词提取器和多头自注意力机制提取文本局部语义特征,提升传统模型的整体能力并解决摘要生成过程中语义表达不清和语义信息缺失等技术问题。
为了达到上述目的,本发明提供了一种融合全局和局部语义特征的文本摘要生成方法,包括如下步骤:
(1)接收待生成摘要的文本,并进行预处理;
(2)构建文本摘要生成模型,所述模型包括:全局语义特征提取模块和局部语义特征提取模块、注意力机制以及基于指针机制的解码层;
将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块,得到全局语义特征向量和局部语义特征向量;
将所述全局语义特征向量和局部语义特征向量输入注意力机制中进行融合,得到融合全局和局部语义特征的上下文向量;
根据得到的所述上下文向量,输入基于指针机制的解码层,得到最终生成的文本摘要;
(3)基于损失函数对模型进行训练,得到训练好的所述文本摘要生成模型;
(4)将经过步骤(1)处理后的待生成摘要的文本,输入训练好的所述文本摘要生成模型,生成文本摘要。
进一步的,所述预处理具体包括:
使用jieba分词器对文本进行分词处理;
去除无用的标签、特殊符号和停用词;
对于过长的所述文本进行截断处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310096168.6/2.html,转载请声明来源钻瓜专利网。