[发明专利]一种基于高级语义的文本摘要生成方法有效
申请号: | 201910227914.4 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109992775B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 李昊;蔡登;潘博远;雷陈奕;王国鑫;何晓飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高级 语义 文本 摘要 生成 方法 | ||
1.一种基于高级语义的文本摘要生成方法,其特征在于,包括以下步骤:
(1)使用文本分词工具对文本语料进行分词处理,将得到的词汇序列转为语义标签序列,并将词汇和语义标签分别转化为对应的词表ID;
(2)在文本摘要模型上,分别使用编码器对词汇序列和语义标签序列进行编码,得到词汇上的抽象表征和语义上的抽象表征;具体过程为:
(2-1)使用随机初始化的词向量分别对词汇和语义标签对应的词表ID进行词向量嵌入;
(2-2)在文本摘要模型上,使用词汇编码器对词汇序列进行编码,使用语义编码器对语义标签序列进行编码,学习词汇和语义的高层抽象表征;
(2-3)从两个编码器中分别取出最后一步的输出结果作为后续操作的输入;
(3)将词汇上的抽象表征和语义上的抽象表征进行合并;具体过程为:将词汇的抽象表征与语义的抽象表征通过矩阵连接合并为一个矩阵,并进行降维:
其中,是词汇编码器前向与后向的最后一步输出,是语义编码器前向与后向的最后一步输出,是模型需要学习的参数;
(4)将合并后的抽象表征送入解码器,分别计算词汇注意力权重和语义注意力权重,同时预测序列每一步在词表上的概率分布;具体过程为:
(4-1)利用词汇编码器的全部输出与解码器中每一步的计算状态,计算当前步的注意力权重,并进行归一化:
aw=softmax(ew)
其中,代表词汇编码器第i步的输出,st代表解码器第t步的计算状态,ew代表归一化前的注意力权重,aw代表归一化后的注意力权重;vT,代表模型需要学习的参数;
(4-2)利用语义编码器的全部输出与解码器中每一步的计算状态,计算当前步的注意力权重,并进行归一化:
as=softmax(es)
其中,代表语义编码器第i步的输出,st代表解码器第t步的计算状态,es代表归一化前的注意力权重,as代表归一化后的注意力权重;vT,代表模型需要学习的参数;
(4-3)计算权重参数pattn,pgen:
上式代表pattn,pgen的计算方法,两者计算公式相同,但参数独立;
(4-4)利用解码器的输出计算词表的概率分布:
其中,代表合并后的编码器输出结果,V,b是模型需要学习的参数;
(5)将注意力权重分布和词表概率分布合并,得到最终的输出概率分布,将最终的概率分布转化为可读的词汇,并串连成句进行输出;具体过程为:
(5-1)将词汇注意力权重与语义注意力权重进行合并,得到指向输入序列的整体注意力权重:
其中,pattn是衡量两个不同注意力的权重参数,分别代表语义注意力和词汇注意力权重;
(5-2)将注意力权重与词表分布概率进行合并:
其中,pgen是衡量注意力权重和词表概率的权重参数;
(5-3)结合词表以及原始输入序列,得到最终概率对应的自然文本,并组合成句。
2.根据权利要求1所述的基于高级语义的文本摘要生成方法,其特征在于,步骤(1)中,所述文本分词工具通过预先设定的语义映射词表或者语法解析算法,将词汇序列转为语义标签序列。
3.根据权利要求1所述的基于高级语义的文本摘要生成方法,其特征在于,步骤(1)中,在分别建立与词汇序列和语义标签序列对应的词表之前,还包括对词汇序列和语义标签序列分别进行统计,按照词频的高低排序,过滤低频词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910227914.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于词属性注意力机制的关键短语识别方法
- 下一篇:一种中文分词方法