[发明专利]一种基于XLNet的自动摘要方法与装置有效
申请号: | 202010488757.5 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111666764B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 杨鹏;李文翰;杨浩然 | 申请(专利权)人: | 南京优慧信安科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06F40/30;G06N3/0464;G06N3/0455;G06N3/084 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 210012 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xlnet 自动 摘要 方法 装置 | ||
本发明公开了一种基于XLNet的自动摘要方法与装置。本发明首先进行数据预处理,将文本按句切分,将句子按词进行切分,在每个句子前增添显示的用于明确句子界限的占位符。然后构建摘要模型XLNetSum,该模型在XLNet基础上增加全局位置编码,将占位符对应的动态词向量和全局位置编码作为句子特征;利用训练数据和验证数据对模型进行训练后,通过训练好的模型得到测试数据中各个句子的评分,再通过后处理步骤选取若干句子作为摘要。本发明的摘要模型利用深度神经语言模型XLNet提取文本信息,挖掘词语和上下文句法结构的语义,且可以处理长度不定的文本序列,能够灵活准确地判断文本中各个句子的重要性,进而抽取出文本的摘要语句。
技术领域
本发明属于信息处理技术领域,具体涉及一种基于XLNet模型的自动摘要方法与装置。
背景技术
随着互联网技术尤其是移动互联网技术的不断发展,人们的学习、工作、生活等方方面面都与网络密切相关。网络上的信息为人们带来了便利,但面对数量庞大的网络信息,人们难以从中挑选出对自己最有用的信息,文本自动摘要正是解决这一问题的关键技术之一。针对一篇文本或多篇相似的文本,利用文本摘要技术获取其核心、简明、自然的摘要信息,可以在一定程度上减轻读者搜集、阅读文档的繁重压力;此外,生成的摘要还可以被应用于搜索引擎、推荐系统等领域,使其更精确地获得文档的核心内容,从而提升性能。
自动摘要技术要求计算机能够为输入的文档生成一个包含其主要内容的短句,主要分为两种模式:生成式摘要(abstractive summarization)与抽取式摘要(extractivesummarization)。前者要求计算机在理解原文的基础上,自动地组织词句,生成出一个句子作为摘要;后者则是从原文中选取一些关键的语句作为摘要。相比较而言,生成式摘要不仅需要计算机“理解”文档,还要自己生成语句,受限于自然语言处理技术的发展,生成的摘要往往词不达意,同时包含大量的语法错误,让人难以理解;抽取式摘要的语句均来自原文,语法错误较少,更便于后续的使用。
近年来,已有许多方法被应用到自动摘要领域。早期的研究主要通过统计字词的分布规律,以及人工构造规则等方法来寻找文章的关键句作为摘要。例如通过统计文章所有词语的TFIDF值,结合句子在文章中的位置,句子的长度等信息,计算最终的得分并选取分数最高的句子作为摘要。这样的方法虽然形式简洁,易于理解,却忽略了词句自身的语义信息,往往要人工构造大量规则,费时费力且效果不佳。
随着深度学习的发展,通过多层人工神经网络提取语义信息的方法被广泛应用于自然语言处理领域。词嵌入技术通过在海量开放语料中的训练,得到词语的语义信息;循环神经网络(Recurrent Neural Network,RNN)与Transformer结构则被设计并用于理解词语序列构成的句子与篇章。将这两种方法结合,并辅以特殊的训练方法,可以得到能为文章中的每一个单词分别生成上下文相关词向量的神经语言模型(Neural Language Model,NLM),其中广为人知的模型包括BERT、XLNet等。其中XLNet采用计算得到词语的相对位置编码,理论上支持无限长的文档序列建模,但其未考虑句子在文档中的位置信息,可能对文档摘要任务带来不利影响。
发明内容
发明目的:本发明目的在于提出一种基于XLNet的自动摘要方法与装置,利用神经语言模型XLNet提取文本的语义信息,并引入绝对位置编码,克服传统方法对词语语义、句法结构信息提取不足的问题,且对输入文本的序列长度不做限制,能够灵活准确地从文本中提取摘要语句。
技术方案:为实现上述发明目的,本发明所述的一种基于XLNet的自动摘要方法,首先对文本文档进行预处理,按句切分,并将每句话按XLNet词表切分为词语序列。接着构建XLNetSum模型,并基于随机梯度下降算法在有标签的训练集数据上进行训练,并利用验证集评价模型是否训练完成。最后用训练好的模型对测试集文本的句子进行预测评分,并通过后处理得到各个文本的摘要。具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京优慧信安科技有限公司,未经南京优慧信安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010488757.5/2.html,转载请声明来源钻瓜专利网。