[发明专利]一种文本摘要模型生成及文本摘要识别方法在审

申请号：	202110229859.X	申请日：	2021-03-02
公开（公告）号：	CN113111646A	公开（公告）日：	2021-07-13
发明（设计）人：	夏书银;曹方;王国胤;罗跃国	申请（专利权）人：	重庆邮电大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/126;G06N3/04;G06N3/08
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	喻英
地址：	400000 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本摘要模型生成识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本摘要模型生成方法及文本摘要识别方法，通过将各时刻的解码单词和对应时刻的解码词性以及对应时刻的解码成分输入到全连接神经网络中得到预测单词、预测词性和预测成分，并构建目标损失函数；然后根据自动文摘评测函数ROUGE‑1对预测摘要和摘要标签进行计算，构建摘要损失函数；最后基于摘要损失函数和目标损失函数计算得到模型损失函数，并通过模型损失函数对全连接神经网络中的权值和偏重进行调整，得到文本摘要模型，以使提取到的文本摘要不仅保留了源文本的重要信息，同时也提升了生成文本的语法的正确性和连贯性。

技术领域

本发明属于通信技术领域，具体涉及一种文本摘要模型生成及文本摘要识别方法。

背景技术

随着互联网的不断发展，网络中的文本数据呈爆发式增长，人们若想从互联网中搜索自己需要的资料，则需要耗费巨大的精力和时间。如何快速地从文本中获取有效信息，这就需要文本摘要获取技术。

现有的文本摘要生成方法主要为抽取式和生成式，其中，抽取式的核心在于计算原文中每个句子的重要性，将重要性靠前的句子从原文中抽取来组合成摘要，该方法的优点在于保证了生成的摘要在语法规则上的正确性，但缺点是由于直接从原文中抽取句子组成摘要，有些句子前后之间缺乏逻辑性和可读性；而生成式则是借助近些年深度学习的快速发展，生成的文本可读性强、语义准确，但生成式文本摘要太注重语义方面的信息，生成的文本有时候存在着明显的语法错误。

发明内容

本发明要解决的技术问题是目前的文本摘要模型生成方法无法同时实现语义上的准确和语法上连贯。因此，本发明提供一种文本摘要模型生成及文本摘要识别方法，在文本生成过程中同时加入语义信息和语法信息，使得提取到的文本摘要不仅保留了源文本的重要信息，同时也提升了生成文本的语法的正确性和连贯性。

本发明通过下述技术方案实现：

一种文本摘要模型生成方法，包括：

获取源文本和所述源文本对应的摘要标签；

对所述源文本进行分词得到文本序列，并对所述摘要标签进行句法分析，得到所述摘要标签中每个单词的成分标签和词性标签；

按照预设数量从所述文本序列中选择词频较高的单词作为输入单词，并按照时间顺序将所述输入单词输入到文本编码解码器中进行识别，生成解码单词；

将所述输入单词对应的词性标签按照时间顺序依次输入到词性编码解码器中，得到解码词性；将所述输入单词对应的成分标签按照时间顺序依次输入到成分编码解码器中，得到解码成分；

将各时刻的解码单词和对应时刻的解码词性以及对应时刻的解码成分输入到全连接神经网络全连接神经网络中，获取计算概率；

基于所述计算概率得到全连接神经网络所述全连接神经网络输出的预测单词、预测词性和预测成分，并与输入单词、摘要标签和成分标签构建目标损失函数；

将所述全连接神经网络输出的所有预测单词按照时间顺序组合成预测摘要，并根据自动文摘评测函数ROUGE-1对预测摘要和所述摘要标签进行计算，构建摘要损失函数；

基于所述摘要损失函数和所述目标损失函数计算得到模型损失函数；