[发明专利]一种文本摘要模型生成及文本摘要识别方法在审
申请号: | 202110229859.X | 申请日: | 2021-03-02 |
公开(公告)号: | CN113111646A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 夏书银;曹方;王国胤;罗跃国 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 喻英 |
地址: | 400000 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 模型 生成 识别 方法 | ||
本发明公开了一种文本摘要模型生成方法及文本摘要识别方法,通过将各时刻的解码单词和对应时刻的解码词性以及对应时刻的解码成分输入到全连接神经网络中得到预测单词、预测词性和预测成分,并构建目标损失函数;然后根据自动文摘评测函数ROUGE‑1对预测摘要和摘要标签进行计算,构建摘要损失函数;最后基于摘要损失函数和目标损失函数计算得到模型损失函数,并通过模型损失函数对全连接神经网络中的权值和偏重进行调整,得到文本摘要模型,以使提取到的文本摘要不仅保留了源文本的重要信息,同时也提升了生成文本的语法的正确性和连贯性。
技术领域
本发明属于通信技术领域,具体涉及一种文本摘要模型生成及文本摘要识别方法。
背景技术
随着互联网的不断发展,网络中的文本数据呈爆发式增长,人们若想从互联网中搜索自己需要的资料,则需要耗费巨大的精力和时间。如何快速地从文本中获取有效信息,这就需要文本摘要获取技术。
现有的文本摘要生成方法主要为抽取式和生成式,其中,抽取式的核心在于计算原文中每个句子的重要性,将重要性靠前的句子从原文中抽取来组合成摘要,该方法的优点在于保证了生成的摘要在语法规则上的正确性,但缺点是由于直接从原文中抽取句子组成摘要,有些句子前后之间缺乏逻辑性和可读性;而生成式则是借助近些年深度学习的快速发展,生成的文本可读性强、语义准确,但生成式文本摘要太注重语义方面的信息,生成的文本有时候存在着明显的语法错误。
发明内容
本发明要解决的技术问题是目前的文本摘要模型生成方法无法同时实现语义上的准确和语法上连贯。因此,本发明提供一种文本摘要模型生成及文本摘要识别方法,在文本生成过程中同时加入语义信息和语法信息,使得提取到的文本摘要不仅保留了源文本的重要信息,同时也提升了生成文本的语法的正确性和连贯性。
本发明通过下述技术方案实现:
一种文本摘要模型生成方法,包括:
获取源文本和所述源文本对应的摘要标签;
对所述源文本进行分词得到文本序列,并对所述摘要标签进行句法分析,得到所述摘要标签中每个单词的成分标签和词性标签;
按照预设数量从所述文本序列中选择词频较高的单词作为输入单词,并按照时间顺序将所述输入单词输入到文本编码解码器中进行识别,生成解码单词;
将所述输入单词对应的词性标签按照时间顺序依次输入到词性编码解码器中,得到解码词性;将所述输入单词对应的成分标签按照时间顺序依次输入到成分编码解码器中,得到解码成分;
将各时刻的解码单词和对应时刻的解码词性以及对应时刻的解码成分输入到全连接神经网络全连接神经网络中,获取计算概率;
基于所述计算概率得到全连接神经网络所述全连接神经网络输出的预测单词、预测词性和预测成分,并与输入单词、摘要标签和成分标签构建目标损失函数;
将所述全连接神经网络输出的所有预测单词按照时间顺序组合成预测摘要,并根据自动文摘评测函数ROUGE-1对预测摘要和所述摘要标签进行计算,构建摘要损失函数;
基于所述摘要损失函数和所述目标损失函数计算得到模型损失函数;
基于所述模型损失函数对所述全连接神经网络中的权值和偏重进行调整,得到文本摘要模型。
进一步地,所述按照预设数量从所述文本序列中选择词频较高的单词作为输入单词,包括:
统计文本序列中每个单词出现的次数作为词频,按照词频从高到低排序得到排序列表;
按照预设数量从所述排序列表中由前到后选择对应数量的单词作为输入单词。
进一步地,所述按照时间顺序将所述输入单词输入到文本编码解码器中进行识别,生成解码单词,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110229859.X/2.html,转载请声明来源钻瓜专利网。