[发明专利]模型训练方法、电信业务特征信息提取方法、装置及设备在审
申请号: | 202110753862.1 | 申请日: | 2021-07-03 |
公开(公告)号: | CN113361644A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 代晓菊;蒋润青;孙海;李铮;李战克;贾博民 | 申请(专利权)人: | 上海理想信息产业(集团)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284 |
代理公司: | 上海方澜知识产权代理事务所(普通合伙) 31440 | 代理人: | 李娜 |
地址: | 201315 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 电信业务 特征 信息 提取 装置 设备 | ||
1.一种模型训练方法,其特征在于,用于训练提取电信行业的业务特征信息的模型,所述方法包括:
获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合;
根据所述训练数据集合中业务特征信息得到业务特征的提取规则信息;所述提取规则信息包括:根据所述训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围;
基于所述提取规则信息从所述测试数据集合提取得到业务特征信息;
根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息;
重新调整所述不满足所述预设条件的提取规则信息,对调整后的所述提取规则信息重复执行所述提取业务特征信息、筛选提取规则信息以及重新调整所述不满足所述预设条件的提取规则信息的步骤,直到得到提取出所述测试数据集合中的所有业务特征信息且满足所述预设条件的提取规则信息。
2.根据权利要求1所述的模型训练方法,其特征在于,基于所述提取规则信息从所述测试数据集合提取得到业务特征信息,包括:
根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
结合所述特征库对所述测试数据集合中的工单文本进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
3.根据权利要求2所述的模型训练方法,其特征在于,所述根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的比较结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息,包括:
对比返回的所述所有业务特征信息的结果集合与所述训练数据集合的业务特征信息,并计算所述提取规则信息的准确率,若所述准确率大于准确率阈值,则确定相应业务特征的提取规则信息满足预设条件,并保存相应业务特征的提取规则信息,若所述准确率小于或者等于所述准确率阈值,则确定相应业务特征的提取规则信息不满足所述预设条件。
4.根据权利要求2所述的模型训练方法,其特征在于,所述根据所述特征元素集合构建业务特征专有词性的特征库,包括:
以预设文件命名规则对所述特征元素集合进行文件命名,将所述特征元素集合的命名规则与其对应的指定业务特征名称保存到特征库。
5.根据权利要求2所述的模型训练方法,其特征在于,所述停用词库的词汇包括以下一者或其任意组合:英文字符、副词、语气词。
6.根据权利要求2所述的模型训练方法,其特征在于,所述结合所述特征库对所述测试数据集合中的工单文本进行分词得到分词结果集合,包括:
将所述特征库按照各字段提取先后的优先级排序整合入预设分词字典库,依次对所述测试数据集合中的工单文本进行分词得到分词结果集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理想信息产业(集团)有限公司,未经上海理想信息产业(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110753862.1/1.html,转载请声明来源钻瓜专利网。