[发明专利]一种基于高级语义的文本摘要生成方法有效
申请号: | 201910227914.4 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109992775B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 李昊;蔡登;潘博远;雷陈奕;王国鑫;何晓飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于高级语义的文本摘要生成方法,包括:(1)将文本语料进行分词并转化为与词汇一一对应的语义标签序列;(2)在文本摘要模型上,使用双向循环网络作为编码器对词汇序列和语义标签序列进行编码,得到词汇上的抽象表征和语义上的抽象表征;(3)将词汇上的抽象表征和语义上的抽象表征进行合并;(4)将合并后的抽象表征送入解码器,分别计算词汇注意力权重和语义注意力权重,同时预测序列每一步在词表上的概率分布;(5)将注意力权重分布和词表概率分布合并,得到最终的输出概率分布,将最终的概率分布转化为可读的词汇,并串连成句进行输出。本发明可以提高模型在预测低频词以及进行无标签数据上的文本摘要的准确率。 | ||
搜索关键词: | 一种 基于 高级 语义 文本 摘要 生成 方法 | ||
【主权项】:
1.一种基于高级语义的文本摘要生成方法,其特征在于,包括以下步骤:(1)使用文本分词工具对文本语料进行分词处理,将得到的词汇序列转为语义标签序列,并将词汇和语义标签分别转化为对应的词表ID;(2)在文本摘要模型上,分别使用编码器对词汇序列和语义标签序列进行编码,得到词汇上的抽象表征和语义上的抽象表征;(3)将词汇上的抽象表征和语义上的抽象表征进行合并;(4)将合并后的抽象表征送入解码器,分别计算词汇注意力权重和语义注意力权重,同时预测序列每一步在词表上的概率分布;(5)将注意力权重分布和词表概率分布合并,得到最终的输出概率分布,将最终的概率分布转化为可读的词汇,并串连成句进行输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910227914.4/,转载请声明来源钻瓜专利网。
- 上一篇:基于词属性注意力机制的关键短语识别方法
- 下一篇:一种中文分词方法