[发明专利]关键词抽取方法、话术评分方法以及话术推荐方法有效
申请号: | 201911272272.6 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111160017B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 唐文军;贾晓谦;王冉;宋子岳 | 申请(专利权)人: | 中电金信软件有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/35;G06F16/332;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 乔改利 |
地址: | 100089 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 抽取 方法 评分 以及 推荐 | ||
本申请涉及一种关键词抽取方法、装置、计算机设备和存储介质,将待处理文本数据输入至利用携带集合编码的序列标注样本训练得到的关键词抽取网络模型,能够通过标准关键词充分发掘上下文的语义相关性,提高了关键词抽取的准确率。本申请还提供一种话术评分方法、装置、计算机设备和存储介质,通过将待评分话术输入已训练的关键词抽取网络模型,能够针对不同业务场景,抽取出只具备业务相关的话术中的关键词,提高了话术评分的准确性。本申请还提供一种话术推荐方法、装置、计算机设备和存储介质,基于由训练好的关键词抽取网络模型得到的话术评分,结合用户意图向客户推荐话术,能够更具针对性推荐话术,提高应答话术的标准化程度。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及关键词抽取方法、装置、计算机设备和存储介质与话术评分方法、装置、计算机设备和存储介质以及话术推荐方法、装置、计算机设备和存储介质。
背景技术
关键词是指能反映文本主题或者主要内容的词语。关键词提取是自然语言处理领域的一个重要的子任务。在信息检索中,准确的关键词提取可以大幅提升效率,在对话系统中,机器可以通过关键词来理解用户意图;在自动文摘、文本分类中,关键词的发现也非常有帮助。
传统的关键词抽取方法是按照一定的计算方法,对文本进行无监督的关键词抽取,由于计算方法的逻辑无法适应复杂多变的业务需求,使得在特定的业务场景下,关键词抽取的准确率较低。例如,在话术评分的业务场景下,关键词抽取的准确性会直接影响评分,采用传统的关键词抽取方法,抽取出的关键词往往不具备业务相关性,使得话术评分具有一定的随机性,准确率不高。
发明内容
基于此,有必要针对传统的关键词抽取方法存在的关键词抽取准确率不高的问题,提供一种更准确的关键词抽取方法、装置、计算机设备和存储介质与话术评分方法、装置、计算机设备和存储介质以及话术推荐方法、装置、计算机设备和存储介质。
一种关键词抽取方法,方法包括:
获取待处理文本数据;
将待处理文本数据输入至已训练的关键词抽取网络模型,得到关键词;
其中,已训练的关键词抽取网络模型采用下述方式构建:
获取训练语料样本数据,训练语料样本数据包括具有对应关系的标准话术和标准关键词;
对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合;
获取数据集合对应的集合编码,基于集合编码,将标准话术处理成携带集合编码的序列标注样本;
获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型,将携带集合编码的序列标注样本输入至初始ERNIE-BiLSTM-CRF关键词抽取网络模型;
基于所述携带集合编码的序列标注样本,训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型,得到关键词抽取网络模型。
在其中一个实施例中,对标准关键词进行分类处理包括:
采用预设预训练模型对标准关键词进行语义向量编码,得到关键词语义向量;
获取关键词语义向量之间的语义相似度,根据语义相似度对标准关键词进行分类。
在其中一个实施例中,计算关键词语义向量之间的语义相似度,根据语义相似度对标准关键词进行分类包括:
采用局部敏感哈希算法和余弦相似度算法,计算关键词语义向量之间的语义相似度;
将语义相似度与预设相似度阈值进行比较,根据比较结果对标准关键词进行分类。
在其中一个实施例中,基于集合编码,将标准话术处理成携带集合编码的序列标注样本包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电金信软件有限公司,未经中电金信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911272272.6/2.html,转载请声明来源钻瓜专利网。