[发明专利]一种基于双向注意力机制的文本摘要生成方法在审

专利信息
申请号: 202310097904.X 申请日: 2023-02-07
公开(公告)号: CN116304002A 公开(公告)日: 2023-06-23
发明(设计)人: 袁炜东;陈平华 申请(专利权)人: 广东工业大学
主分类号: G06F16/34 分类号: G06F16/34;G06N3/0442;G06N3/0475;G06N3/096
代理公司: 长沙轩荣专利代理有限公司 43235 代理人: 丁耀鹏
地址: 510000 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 双向 注意力 机制 文本 摘要 生成 方法
【权利要求书】:

1.一种基于双向注意力机制的文本摘要生成方法,其特征在于:包括以下步骤;

步骤一、预处理,预处理步骤一般就是分词,去噪,词数字化;

步骤二、词嵌入,自然语言处理和机器学习结合时,都将面临将符号、符号序列或符号结构转换为机器学习能使用的向量的问题;

步骤三、第一种结构类似于前馈NNLM,去掉非线性隐层,所有的词(不只是投影权重矩阵)共享投影层;

步骤四、连续词袋模型,第一种结构类似于前馈NNLM,去掉非线性隐层,所有的词(不只是投影权重矩阵)共享投影层;

步骤五、word2vec的Skip-gram模型,第二种体系结构类似于CBOW,但它不是基于上下文预测当前单词,而是尝试基于同一句子中的另一个单词来最大化单词的分类;

步骤六、知识迁移技术,在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布。

2.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:它通过将机器摘要与人类撰写的摘要进行比较来自动确定摘要质量,计算人类撰写的理想摘要与计算机生成的摘要之间的重叠单位数,例如n-gram,单词序列和单词对。

3.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:序列Z=[zi,Z2,....,zn]是另一个序列X=[X1,X2,...,xm]的子序列,如果X的所有索引比如j=1,2,....,k,存在严格的递增序列[i,i,..,i],那么,xij=z[39];给定两个序列X和Y,X和Y具有最大长度的公共子序列被称为为最长公共子序列(LCS),LCS已被用于在从平行文本中,找出最好的N元翻译词汇,Melamed40]使用两个单词的LCS长度与两个单词中较长单词的长度之间的比率(LCSR)来衡量它们之间的同源性,他使用LCS作为近似字符串匹配算法,Saggion等人[37l使用归一化成对LCS来比较自动摘要评估中两个文本之间的相似性。

4.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:字符组成词,词形成句子,句子形成文档,词作为文档的最小语义单位,词向量可以用作各种自然语言处理任务中的特征,在文档分类和文档摘要任务中扮演着至关重要的角色,第二章介绍了Word2VEC技术,可知由Word2VEC训练的词向量,训练集越大训练得到的词向量质量越高,说明可以通过增大训练集来改善词向量,本章针对训练集问题采用了知识迁移技术,利用外部数据集维基百科来扩充词向量训练的数据集;第二章介绍了TFIDF等传统特征,这些特征曾在词嵌入技术出现之前被广泛应用在词特征表示上,因此,本章考虑把这些特征和知识迁移后的词特征做融合,来进一步改善词向量表示,从而采用基于知识迁移融合多种特征的文档词向量表示方法,为后续的文本摘要任务奠定基础。

5.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:首先用外部数据集(维基百科)训练词向量,准备做知识迁移;接着在训练集做知识迁移,继续训练词向量,同时,从训练集获得词其它传统语言特征,如词性标记,命名实体标记,TF和IDF,以及TF-IDF组合特征;最后对于源文档中的每个单词,查找其词嵌入和传统特征,并将它们连接成一个长向量,完成特征融合,组成新的词向量,用于后续任务。

6.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:数据集的大小对词嵌入的质量起着决定性作用,为了解决NLP任务中,训练数据不够充裕而影响词嵌入的质量,这里引入外部数据集来做知识迁移辅助训练词向量,这里选择维基百科的数据作为外部数据集,然后利用了gensim里的维基百科处理类WikiCorpus,通过get_texts将维基里的每篇文章转换位1行text文本,并且去掉了标点符号等内容,繁简体,分词等预处理,最后跑word2vec模型,训练得到外部数据集(这里指维基百科文本)词向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310097904.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top