[发明专利]一种闭环的话术扩写方法、装置、计算机设备及存储介质在审
申请号: | 202210603422.2 | 申请日: | 2022-05-30 |
公开(公告)号: | CN115017870A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 于凤英;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F16/332 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 姜宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 闭环 的话 术扩写 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种闭环的话术扩写方法、装置、计算机设备及存储介质。所述方法包括:获取已标注的目标意图的话术文本集合,并从所述话术文本集合中提取所述目标意图的第一关键词集合;基于所述话术文本集合以及第一关键词集合,采用训练好的mT5模型进行话术扩写,生成所述目标意图的第一扩写话术文本集合;对所述第一扩写话术文本集合重新进行关键词提取,得到所述目标意图的第二关键词集合;基于所述第一扩写话术文本集合以及第二关键词集合重新进行话术扩写,得到所述目标意图的话术扩写结果。本发明丰富了扩写话术的丰富性,并采用闭环的多次循环扩写模式,提高了扩写话术的数据量,丰富了扩写话术的多样性。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种闭环的话术扩写方法、装置、计算机设备及存储介质。
背景技术
自然语言处理(Natural Language Processing,缩写为NLP)是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。目前,自然语言处理模型需要依赖于数据的标注,而数据的标注往往需要耗费大量的人力资源。很多情况下,新场景上线业务很难提供一定量的标注数据,会带来新场景上线的冷启动问题。为了解决该问题,研发了话术扩写系统,即给定一句话,然后扩写出语义与之相似的一系列话术。这种扩写方式存在的不足在于:由于扩写话术与已有的标注话术在语义上比较相似,限制了话术扩写的多样性,而由于扩写话术的多样性不足,导致新场景的意图识别效果较差;另外,由于扩写话术存在一定的通顺度问题,需要人工对扩写出来的语句进行通顺度过滤,需要耗费大量的人力资源。
发明内容
本发明提供了一种闭环的话术扩写方法、装置、计算机设备及存储介质,旨在解决现有的话术扩写系统存在的扩写话术多样性不足以及需要人工过滤扩写话术等技术问题。
为解决上述技术问题,本发明采用的技术方案为:
一种闭环的话术扩写方法,包括:
获取已标注的目标意图的话术文本集合,并从所述话术文本集合中提取所述目标意图的第一关键词集合;
基于所述话术文本集合以及第一关键词集合,采用训练好的mT5模型进行话术扩写,生成所述目标意图的第一扩写话术文本集合;
对所述第一扩写话术文本集合重新进行关键词提取,得到所述目标意图的第二关键词集合;
基于所述第一扩写话术文本集合以及第二关键词集合重新进行话术扩写,得到所述目标意图的话术扩写结果。
本发明实施例采取的技术方案还包括:所述从所述话术文本集合中提取所述目标意图的第一关键词集合包括:
采用TextRank算法从所述话术文本集合中提取目标意图的关键词;
所述采用TextRank算法从所述话术文本集合中提取目标意图的关键词具体为:设置一个长度为m的滑动窗口,将所有在同一个窗口之内的词视作节点的相邻节点,构建词的无向图,将不同词对之间的共现作为所述无向图边的权值,基于所述无向图进行关键词提取。
本发明实施例采取的技术方案还包括:所述采用TextRank算法从所述话术文本集合中提取目标意图的关键词包括:
按照所述话术文本中的标点符号对每个话术文本进行断句;
对所述断句后的每个句子进行分词,去除每个句子中的停用词,并对每个词进行词性标注,保留指定词性的词语,生成候选关键词集合;
基于所述候选关键词集合构建词的无向图G=(V,E),其中V为节点集合,E为边集合;
基于所述无向图,利用PageRank算法迭代计算每个节点的Rank值;
对所有节点的Rank值进行降序排列,并根据排序结果选择前M个候选关键词作为最终的关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210603422.2/2.html,转载请声明来源钻瓜专利网。