[发明专利]文本摘要生成方法、计算机设备及存储介质有效
申请号: | 202110489771.1 | 申请日: | 2021-05-06 |
公开(公告)号: | CN112906385B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 杨德杰 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;杨毅玲 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 摘要 生成 方法 计算机 设备 存储 介质 | ||
本发明涉及人工智能技术领域,提供一种文本摘要生成方法、计算机设备及存储介质,包括:对文本进行分词处理得到目标关键词;根据目标关键词的词向量生成文本中语句的语句向量及文本片段的段向量;根据语句向量计算语句在文本中的语句权重;对段向量进行编码得到文本片段的隐状态;根据文本片段的隐状态及每个时刻的隐状态向量得到文本片段中的目标关键词的注意力权重;根据目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布,词汇概率分布表示第k个位置出现的目标关键词,代理权重为语句权重之和;根据词汇概率分布生成文本摘要。本发明能够准确的生成文本摘要,生成的文本摘要可读性强,且对于长文本具有较好的效果。
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本摘要生成方法、计算机设备及存储介质。
背景技术
培训课程时长大多较长,例如,通常超过一个小时,通过生成培训课程的文本摘要,能够辅助用户课后快速的回顾和复习。
发明人在实现本发明的过程中发现,现有文本摘要的生成方式分为生成式和抽取式两种,生成式文本摘要方法是指通过“理解”原文档后生成新的摘要,可读性强,但生成的摘要的正确性较低,且目前的生成式摘要方法往往聚焦于短课程文本,对于长课程文本的应用效果较差,抽取式文本摘要方法是指提取原文档的关键词或关键句并按重要程度组合形成摘要,但生成的摘要可读性较差,且包含的信息量较小。
发明内容
鉴于以上内容,有必要提出一种文本摘要生成方法、计算机设备及存储介质,能够准确的生成文本摘要,生成的文本摘要可读性强,且对于长文本也具有较好的效果。
本发明的第一方面提供一种文本摘要生成方法,所述方法包括:
对文本进行分词处理得到目标关键词,获取所述目标关键词的词向量;
根据所述词向量生成所述文本中语句的语句向量,及根据所述词向量生成所述文本中文本片段的段向量;
根据所述语句向量计算所述语句在所述文本中的语句权重;
对所述段向量进行编码,得到所述文本片段的隐状态;
根据所述文本片段的隐状态及每个时刻的隐状态向量得到所述文本片段中的目标关键词的注意力权重;
根据所述目标关键词的注意力权重及对应的代理权重计算得到t时刻的词汇概率分布,所述词汇概率分布表示文本摘要的第k个位置出现的目标关键词,所述代理权重为所述文本片段中语句的语句权重之和;
根据所述词汇概率分布生成文本摘要。
在一个可选的实施方式中,所述根据所述语句向量计算所述语句在所述文本中的语句权重包括:
获取所述语句的第一最大边界相关度;
获取所述文本中除所述语句之外的其余语句的第二最大边界相关度;
根据所述第一最大边界相关度及所述第二最大边界相关度得到所述语句的语句权重。
在一个可选的实施方式中,所述第一最大边界相关度的计算过程包括:
根据所述语句的语句向量计算所述语句与所述文本的第一相似度;
根据所述语句的语句向量与所述其余语句的语句向量计算所述语句与所述其余语句的第二相似度;
根据所述第一相似度及所述第二相似度计算得到所述第一最大边界相关度。
在一个可选的实施方式中,所述根据所述语句的语句向量计算所述语句与所述文本的第一相似度包括:根据所述语句中的词向量计算所述语句的第一特征表示;根据所述文本中的词向量计算所述文本的第二特征表示;采用相似度计算模型根据所述第一特征表示和所述第二特征表示计算得到第一相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110489771.1/2.html,转载请声明来源钻瓜专利网。