[发明专利]模型训练方法、电信业务特征信息提取方法、装置及设备在审
申请号: | 202110753862.1 | 申请日: | 2021-07-03 |
公开(公告)号: | CN113361644A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 代晓菊;蒋润青;孙海;李铮;李战克;贾博民 | 申请(专利权)人: | 上海理想信息产业(集团)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284 |
代理公司: | 上海方澜知识产权代理事务所(普通合伙) 31440 | 代理人: | 李娜 |
地址: | 201315 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 电信业务 特征 信息 提取 装置 设备 | ||
本发明实施例涉及自然语言处理技术领域,公开了一种模型训练方法、电信业务特征信息提取方法、装置及设备。该方法包括:根据获取的实际业务工单文本的训练数据集合中业务特征信息得到业务特征的提取规则信息;基于提取规则信息从待提取业务特征信息的测试数据集合提取得到业务特征信息;根据提取的业务特征信息与训练数据集合的业务特征信息的对比结果筛选得到满足预设条件以及不满足预设条件的提取规则信息;重新调整不满足预设条件的提取规则信息,对调整后的提取规则信息重复执行前述步骤,直到得到提取出测试数据集合中的所有业务特征信息且满足预设条件的提取规则信息。本发明实施例可提高电信行业等的业务特征信息提取的准确率以及效率。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种模型训练方法、电信业务特征信息提取方法、装置及设备。
背景技术
文本特征信息提取是计算机对自然语言的特征进行自动识别并提取的过程,在客服领域有重要应用,例如以电信10000号客服中心平台为例,希望能够通过自动提取业务特征信息的手段,实现用户来电工单的诉求信息的自动提取及快速填充,从而达到加快现场话务员服务响应能效,提升整体服务质量,提高客服整体运营数据分析的智能化程度,优化管理效果。
目前随着人工智能的不断发展,文本特征信息提取的相关研究也越来越多,但是现有的文本特征信息提取技术在电信行业领域的落地应用较少,尤其是在提取指定业务特定信息的应用中受到不同业务特征信息会有交叉重叠、特征信息不规范等因素的影响导致最终提取结果的准确性和效率上都难以达到实际应用标准。
发明内容
有鉴于此,本发明实施例提供了一种模型训练方法、电信业务特征信息提取方法、装置及设备,以提高电信行业等的业务特征信息提取的准确率以及效率。
为解决上述技术问题,本发明实施例提供了一种模型训练方法,用于训练提取电信行业的业务特征信息的模型,所述方法包括:
获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合;
根据所述训练数据集合中业务特征信息得到业务特征的提取规则信息;所述提取规则信息包括:根据所述训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围;
基于所述提取规则信息从所述测试数据集合提取得到业务特征信息;
根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息;
重新调整所述不满足所述预设条件的提取规则信息,对调整后的所述提取规则信息重复执行所述提取业务特征信息、筛选提取规则信息以及重新调整所述不满足所述预设条件的提取规则信息的步骤,直到得到提取出所述测试数据集合中的所有业务特征信息且满足所述预设条件的提取规则信息。
本发明实施例还提供了一种电信业务特征信息提取方法,包括:
获取待提取业务特征信息的工单文本数据;
基于如前所述的模型训练方法得到提取规则信息;所述提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围;
根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
结合所述特征库对所述待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理想信息产业(集团)有限公司,未经上海理想信息产业(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110753862.1/2.html,转载请声明来源钻瓜专利网。