[发明专利]一种基于高级语义的文本摘要生成方法有效

专利信息
申请号: 201910227914.4 申请日: 2019-03-25
公开(公告)号: CN109992775B 公开(公告)日: 2021-01-12
发明(设计)人: 李昊;蔡登;潘博远;雷陈奕;王国鑫;何晓飞 申请(专利权)人: 浙江大学
主分类号: G06F40/284 分类号: G06F40/284;G06F40/30;G06N3/04
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 高级 语义 文本 摘要 生成 方法
【权利要求书】:

1.一种基于高级语义的文本摘要生成方法,其特征在于,包括以下步骤:

(1)使用文本分词工具对文本语料进行分词处理,将得到的词汇序列转为语义标签序列,并将词汇和语义标签分别转化为对应的词表ID;

(2)在文本摘要模型上,分别使用编码器对词汇序列和语义标签序列进行编码,得到词汇上的抽象表征和语义上的抽象表征;具体过程为:

(2-1)使用随机初始化的词向量分别对词汇和语义标签对应的词表ID进行词向量嵌入;

(2-2)在文本摘要模型上,使用词汇编码器对词汇序列进行编码,使用语义编码器对语义标签序列进行编码,学习词汇和语义的高层抽象表征;

(2-3)从两个编码器中分别取出最后一步的输出结果作为后续操作的输入;

(3)将词汇上的抽象表征和语义上的抽象表征进行合并;具体过程为:将词汇的抽象表征与语义的抽象表征通过矩阵连接合并为一个矩阵,并进行降维:

其中,是词汇编码器前向与后向的最后一步输出,是语义编码器前向与后向的最后一步输出,是模型需要学习的参数;

(4)将合并后的抽象表征送入解码器,分别计算词汇注意力权重和语义注意力权重,同时预测序列每一步在词表上的概率分布;具体过程为:

(4-1)利用词汇编码器的全部输出与解码器中每一步的计算状态,计算当前步的注意力权重,并进行归一化:

aw=softmax(ew)

其中,代表词汇编码器第i步的输出,st代表解码器第t步的计算状态,ew代表归一化前的注意力权重,aw代表归一化后的注意力权重;vT,代表模型需要学习的参数;

(4-2)利用语义编码器的全部输出与解码器中每一步的计算状态,计算当前步的注意力权重,并进行归一化:

as=softmax(es)

其中,代表语义编码器第i步的输出,st代表解码器第t步的计算状态,es代表归一化前的注意力权重,as代表归一化后的注意力权重;vT,代表模型需要学习的参数;

(4-3)计算权重参数pattn,pgen

上式代表pattn,pgen的计算方法,两者计算公式相同,但参数独立;

(4-4)利用解码器的输出计算词表的概率分布:

其中,代表合并后的编码器输出结果,V,b是模型需要学习的参数;

(5)将注意力权重分布和词表概率分布合并,得到最终的输出概率分布,将最终的概率分布转化为可读的词汇,并串连成句进行输出;具体过程为:

(5-1)将词汇注意力权重与语义注意力权重进行合并,得到指向输入序列的整体注意力权重:

其中,pattn是衡量两个不同注意力的权重参数,分别代表语义注意力和词汇注意力权重;

(5-2)将注意力权重与词表分布概率进行合并:

其中,pgen是衡量注意力权重和词表概率的权重参数;

(5-3)结合词表以及原始输入序列,得到最终概率对应的自然文本,并组合成句。

2.根据权利要求1所述的基于高级语义的文本摘要生成方法,其特征在于,步骤(1)中,所述文本分词工具通过预先设定的语义映射词表或者语法解析算法,将词汇序列转为语义标签序列。

3.根据权利要求1所述的基于高级语义的文本摘要生成方法,其特征在于,步骤(1)中,在分别建立与词汇序列和语义标签序列对应的词表之前,还包括对词汇序列和语义标签序列分别进行统计,按照词频的高低排序,过滤低频词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910227914.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top