[发明专利]一种基于高级语义的文本摘要生成方法有效
申请号: | 201910227914.4 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109992775B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 李昊;蔡登;潘博远;雷陈奕;王国鑫;何晓飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高级 语义 文本 摘要 生成 方法 | ||
本发明公开了一种基于高级语义的文本摘要生成方法,包括:(1)将文本语料进行分词并转化为与词汇一一对应的语义标签序列;(2)在文本摘要模型上,使用双向循环网络作为编码器对词汇序列和语义标签序列进行编码,得到词汇上的抽象表征和语义上的抽象表征;(3)将词汇上的抽象表征和语义上的抽象表征进行合并;(4)将合并后的抽象表征送入解码器,分别计算词汇注意力权重和语义注意力权重,同时预测序列每一步在词表上的概率分布;(5)将注意力权重分布和词表概率分布合并,得到最终的输出概率分布,将最终的概率分布转化为可读的词汇,并串连成句进行输出。本发明可以提高模型在预测低频词以及进行无标签数据上的文本摘要的准确率。
技术领域
本发明属于自然语言处理领域,尤其是涉及一种基于高级语义的文本摘要生成方法。
背景技术
自然语言领域中的文本摘要是在保留原始文本大意的情况下将一段长文本通过计算机技术自动压缩为短文本的方法。该技术目前在各大媒体网站均有使用,通过该技术能够将原本较长的文本内容压缩为包含重点信息的短文本,进而节省屏幕空间,向用户展示更多的内容。在寸土寸金的媒体界面上,展示更多的内容会为厂家带来更大的流量,直接提高广告等信息的曝光率,提升用户活跃度,为厂家带来直接的利益。
早期的文本摘要技术都是基于文本规则的,这些规则通常是某种文本形式所遵循的惯例。诸如,新闻文本通常以首段概括整个新闻的内容,因此文本摘要会直接将新闻的前若干语句抽取出作为摘要内容。在格式相对固定的新闻内容上,使用该方法可以达到较好的效果。但随着自媒体时代的兴起,网络上充满着大量不同主题,不同形式的文本材料。首段已经不能准确概括文本的内容。因此该领域开始使用人工智能的方法进行自动摘要。近些年来,许多优秀的文本摘要方法纷纷涌现。比如2014年发表在Empirical Methods inNatural Language Processing上的《Learning Phrase Representations using RNNEncoder-Decoder for Statistical Machine Translation.》在第1724到第1734页提出了一种名为序列到序列(Seq2Seq)的结构;2015年发表在Empirical Methods in NaturalLanguage Processing 上的《Effective Approaches to Attention-based NeuralMachine Translation》在第1412页到第1421页公布了一种在序列到序列结构上使用的注意力机制来提高模型效果。这段时间公布的方法大部分采用序列到序列的结构框架,能够在预先设定的词表中选出合适的词语串连成句。但此类从词表中选词的方法无法生成包含生僻词的摘要文本,在处理包含人名等专有名词的文本时会有较大限制。2015年发表在Neural Information Processing Systems上的《Pointer Network》在第2692页到第2700页提出了一种名为Pointer Network的结构,允许序列模型的输出能够指向输入文本,从输入文本中挑选重要的项作为输出,而不是从固定的词表中生成。而后,在此基础上,2017年发表在Association for Computational Linguistics上的《Get To The Point:Summarization with Pointer-Generator Networks》在第1073页到第1083页公布了一种名为Pointer-Generator Network模型,使模型能够利用注意力从输入的原文中挑选重要的词汇,也可以从词表中生成单词。
低频词汇的处理是自然语言理解的一个重要问题之一。为了便于训练,自然语言模型在制作词表时会忽略低频词,将其统一替换为一个固定的符号(以下使用UNK替代,即Unknown Token),损失了关于这些低频词汇的全部信息。人名/地名/时间等特殊词汇出现频率较低,但在语料中具有重要的语义信息。之前的工作通过复制机制能够从输入的原始语料中复制重要的词汇到输出中,但模型判断词汇重要程度的依据只有输入序列的注意力权重分布,而完全忽视了词汇本身的意义。这种方法无法较好得解决低频词汇信息损失的情况。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910227914.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于词属性注意力机制的关键短语识别方法
- 下一篇:一种中文分词方法