[发明专利]一种基于双向注意力机制的文本摘要生成方法在审
申请号: | 202310097904.X | 申请日: | 2023-02-07 |
公开(公告)号: | CN116304002A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 袁炜东;陈平华 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06N3/0442;G06N3/0475;G06N3/096 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 丁耀鹏 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 注意力 机制 文本 摘要 生成 方法 | ||
1.一种基于双向注意力机制的文本摘要生成方法,其特征在于:包括以下步骤;
步骤一、预处理,预处理步骤一般就是分词,去噪,词数字化;
步骤二、词嵌入,自然语言处理和机器学习结合时,都将面临将符号、符号序列或符号结构转换为机器学习能使用的向量的问题;
步骤三、第一种结构类似于前馈NNLM,去掉非线性隐层,所有的词(不只是投影权重矩阵)共享投影层;
步骤四、连续词袋模型,第一种结构类似于前馈NNLM,去掉非线性隐层,所有的词(不只是投影权重矩阵)共享投影层;
步骤五、word2vec的Skip-gram模型,第二种体系结构类似于CBOW,但它不是基于上下文预测当前单词,而是尝试基于同一句子中的另一个单词来最大化单词的分类;
步骤六、知识迁移技术,在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布。
2.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:它通过将机器摘要与人类撰写的摘要进行比较来自动确定摘要质量,计算人类撰写的理想摘要与计算机生成的摘要之间的重叠单位数,例如n-gram,单词序列和单词对。
3.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:序列Z=[zi,Z2,....,zn]是另一个序列X=[X1,X2,...,xm]的子序列,如果X的所有索引比如j=1,2,....,k,存在严格的递增序列[i,i,..,i],那么,xij=z[39];给定两个序列X和Y,X和Y具有最大长度的公共子序列被称为为最长公共子序列(LCS),LCS已被用于在从平行文本中,找出最好的N元翻译词汇,Melamed40]使用两个单词的LCS长度与两个单词中较长单词的长度之间的比率(LCSR)来衡量它们之间的同源性,他使用LCS作为近似字符串匹配算法,Saggion等人[37l使用归一化成对LCS来比较自动摘要评估中两个文本之间的相似性。
4.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:字符组成词,词形成句子,句子形成文档,词作为文档的最小语义单位,词向量可以用作各种自然语言处理任务中的特征,在文档分类和文档摘要任务中扮演着至关重要的角色,第二章介绍了Word2VEC技术,可知由Word2VEC训练的词向量,训练集越大训练得到的词向量质量越高,说明可以通过增大训练集来改善词向量,本章针对训练集问题采用了知识迁移技术,利用外部数据集维基百科来扩充词向量训练的数据集;第二章介绍了TFIDF等传统特征,这些特征曾在词嵌入技术出现之前被广泛应用在词特征表示上,因此,本章考虑把这些特征和知识迁移后的词特征做融合,来进一步改善词向量表示,从而采用基于知识迁移融合多种特征的文档词向量表示方法,为后续的文本摘要任务奠定基础。
5.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:首先用外部数据集(维基百科)训练词向量,准备做知识迁移;接着在训练集做知识迁移,继续训练词向量,同时,从训练集获得词其它传统语言特征,如词性标记,命名实体标记,TF和IDF,以及TF-IDF组合特征;最后对于源文档中的每个单词,查找其词嵌入和传统特征,并将它们连接成一个长向量,完成特征融合,组成新的词向量,用于后续任务。
6.根据权利要求1所述的一种基于双向注意力机制的文本摘要生成方法,其特征在于:数据集的大小对词嵌入的质量起着决定性作用,为了解决NLP任务中,训练数据不够充裕而影响词嵌入的质量,这里引入外部数据集来做知识迁移辅助训练词向量,这里选择维基百科的数据作为外部数据集,然后利用了gensim里的维基百科处理类WikiCorpus,通过get_texts将维基里的每篇文章转换位1行text文本,并且去掉了标点符号等内容,繁简体,分词等预处理,最后跑word2vec模型,训练得到外部数据集(这里指维基百科文本)词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310097904.X/1.html,转载请声明来源钻瓜专利网。