[发明专利]一种自监督的对话文本摘要方法及系统有效

专利信息
申请号: 202010475376.3 申请日: 2020-05-29
公开(公告)号: CN111639175B 公开(公告)日: 2023-05-02
发明(设计)人: 林劼;党元;徐佳俊;马俊;李继演;伍双楠 申请(专利权)人: 电子科技大学
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35;G06F40/289;G06F40/30
代理公司: 成都金英专利代理事务所(普通合伙) 51218 代理人: 袁英
地址: 610041 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 监督 对话 文本 摘要 方法 系统
【说明书】:

发明公开了一种自监督的对话文本摘要方法及系统,方法包括:文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;时序自监督编码,训练出将对话句子编码为语义向量的自监督编码模型;自监督分段,训练出将对话文本分割为若干段落的自监督分段模型;无监督主题聚类,将相同主题的段落聚到同一类别集合中;编解码生成式摘要,将主题段落编解码生成文本摘要。本发明还提供一种自监督的对话文本摘要系统。本方案利用自监督和无监督模型进行建模,结合了生成式模型的优点,经过分段和主题聚类处理后进行生成式摘要,对完备对话集进行编解码,获得了质量较好的摘要,克服了人工标注样本短缺的问题。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种自监督的对话文本摘要方法及系统。

背景技术

随着信息技术的发展,即时信息迅速膨胀,短信、微博、商品评论、客服对话等单句长度较小的文本成为自然语言处理的研究热点,此类段落长度不超过140个字符的文本被称为短文本,短文本处理技术在自动问答、AI客服等领域有广阔应用前景。对话文本属于典型的短文本,如电商平台客服对话、论坛交流贴、社交软件聊天记录等。相比较于来自文章的文本,对话文本的处理复杂性更高。对话文本摘要任务属于自动文本摘要任务的一种,自动文本摘要目前的方法集中在以下几个方面:

(1)基于统计学的抽取式摘要方法

基于统计学的方法,对文章进行抽取式摘要,统计学方法通过文本的统计特征,计算文本中词句的重要性程度,对源文档的重要句子和词组进行抽取组合成摘要。常见的文本统计特征有:词频率、词句的位置信息和词句的关联信息。

统计学的方法依赖于文本的统计特征,优点是计算简单,且不需要额外自然语言学知识,适用于格式相对规范的文档抽取式摘要。基于统计学的方法最先在自动文本摘要领域取得了重要进展,但该类方法只是基于词语和句子的表层特征进行统计计算,未能利用词句之间的语义信息与联系,抽取的摘要往往包含过多冗余信息,仍然存在很大的局限性。

(2)基于机器学习的抽取式摘要方法

基于传统机器学习的方法以监督学习为主,一般是通过对原文中的句子进行标注,将句子分为摘要句或非摘要句,然后利用机器学习模型对原文中的句子进行分类。这类方法有朴素贝叶斯分类模型、隐马尔可夫模型,线性回归模型、决策树模型等等,最终将分类后的摘要句组合成为摘要。

与无监督的方法相比,基于机器学习的方法可以学习人工标注信息,挖掘文本特征与目标标签间的关联,准确性和效率更高。但是对大量训练集进行人工标注需要消耗巨大的人力成本,在实际的自动文本摘要任务中,往往无法获取足够的标注数据对模型进行训练,因此基于机器学习的方法未能得到广泛应用。

(3)基于深度学习的生成式摘要方法

随着计算机性能的不断增长,深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向:首先寻求文本在指定维数空间内的语义表示,然后再应用到不同的任务中。深度学习应用于文本摘要的生成,可以基于Sequence-to-Sequence模型,利用CNN网络或RNN网络对原文档进行编码,然后利用RNN网络进行解码生成摘要。深度学习的方法更接近于人工的摘要方式:理解内容之后生成概括,目前效果最好,但是需要大量人工标注的样本,训练成本很高。

发明内容

本发明的目的在于实现一种自监督的对话文本摘要方法,主要通过自监督和无监督的技术进行处理,克服了对话文本摘要任务没有大规模标注训练集的问题,生成摘要的效果良好。

本发明的目的是通过以下技术方案来实现的:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010475376.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top