[发明专利]一种自监督的对话文本摘要方法及系统有效
申请号: | 202010475376.3 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111639175B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 林劼;党元;徐佳俊;马俊;李继演;伍双楠 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 对话 文本 摘要 方法 系统 | ||
本发明公开了一种自监督的对话文本摘要方法及系统,方法包括:文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;时序自监督编码,训练出将对话句子编码为语义向量的自监督编码模型;自监督分段,训练出将对话文本分割为若干段落的自监督分段模型;无监督主题聚类,将相同主题的段落聚到同一类别集合中;编解码生成式摘要,将主题段落编解码生成文本摘要。本发明还提供一种自监督的对话文本摘要系统。本方案利用自监督和无监督模型进行建模,结合了生成式模型的优点,经过分段和主题聚类处理后进行生成式摘要,对完备对话集进行编解码,获得了质量较好的摘要,克服了人工标注样本短缺的问题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自监督的对话文本摘要方法及系统。
背景技术
随着信息技术的发展,即时信息迅速膨胀,短信、微博、商品评论、客服对话等单句长度较小的文本成为自然语言处理的研究热点,此类段落长度不超过140个字符的文本被称为短文本,短文本处理技术在自动问答、AI客服等领域有广阔应用前景。对话文本属于典型的短文本,如电商平台客服对话、论坛交流贴、社交软件聊天记录等。相比较于来自文章的文本,对话文本的处理复杂性更高。对话文本摘要任务属于自动文本摘要任务的一种,自动文本摘要目前的方法集中在以下几个方面:
(1)基于统计学的抽取式摘要方法
基于统计学的方法,对文章进行抽取式摘要,统计学方法通过文本的统计特征,计算文本中词句的重要性程度,对源文档的重要句子和词组进行抽取组合成摘要。常见的文本统计特征有:词频率、词句的位置信息和词句的关联信息。
统计学的方法依赖于文本的统计特征,优点是计算简单,且不需要额外自然语言学知识,适用于格式相对规范的文档抽取式摘要。基于统计学的方法最先在自动文本摘要领域取得了重要进展,但该类方法只是基于词语和句子的表层特征进行统计计算,未能利用词句之间的语义信息与联系,抽取的摘要往往包含过多冗余信息,仍然存在很大的局限性。
(2)基于机器学习的抽取式摘要方法
基于传统机器学习的方法以监督学习为主,一般是通过对原文中的句子进行标注,将句子分为摘要句或非摘要句,然后利用机器学习模型对原文中的句子进行分类。这类方法有朴素贝叶斯分类模型、隐马尔可夫模型,线性回归模型、决策树模型等等,最终将分类后的摘要句组合成为摘要。
与无监督的方法相比,基于机器学习的方法可以学习人工标注信息,挖掘文本特征与目标标签间的关联,准确性和效率更高。但是对大量训练集进行人工标注需要消耗巨大的人力成本,在实际的自动文本摘要任务中,往往无法获取足够的标注数据对模型进行训练,因此基于机器学习的方法未能得到广泛应用。
(3)基于深度学习的生成式摘要方法
随着计算机性能的不断增长,深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向:首先寻求文本在指定维数空间内的语义表示,然后再应用到不同的任务中。深度学习应用于文本摘要的生成,可以基于Sequence-to-Sequence模型,利用CNN网络或RNN网络对原文档进行编码,然后利用RNN网络进行解码生成摘要。深度学习的方法更接近于人工的摘要方式:理解内容之后生成概括,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
发明内容
本发明的目的在于实现一种自监督的对话文本摘要方法,主要通过自监督和无监督的技术进行处理,克服了对话文本摘要任务没有大规模标注训练集的问题,生成摘要的效果良好。
本发明的目的是通过以下技术方案来实现的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010475376.3/2.html,转载请声明来源钻瓜专利网。