[发明专利]一种行业分类模型训练方法、分类方法与装置在审
申请号: | 202010664798.5 | 申请日: | 2020-07-10 |
公开(公告)号: | CN113918709A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 孙一丹;张清华;陈萍;卢翠兰 | 申请(专利权)人: | 银联数据服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N20/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 侯林林 |
地址: | 201201 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 分类 模型 训练 方法 装置 | ||
1.一种行业分类模型训练方法,其特征在于,包括:
构建企业名称的领域词词库,所述领域词词库包括领域和领域词的对应关系,所述领域包括地名、企业专名、企业属性和固定表达;
根据所述领域词词库,对训练文本集合中的企业名称进行分词,得到所述企业名称的词向量特征,所述企业名称的词向量特征由所述企业名称分词之后的各个词向量加权组合得到的,所述训练文本集合包括所述企业名称的标签类别;
根据所述企业名称的词向量特征和所述企业名称的标签类别,对用于行业分类的分类器进行训练,得到有监督的机器学习多分类模型。
2.根据权利要求1所述的方法,其特征在于,所述构建企业名称的领域词词库,包括:
根据企业名称的组成规则,对收集的企业名称集合中的各类领域词和所属领域进行识别,得到领域词词库。
3.根据权利要求1所述的方法,其特征在于,对训练文本集合中的企业名称进行分词之后,得到所述企业名称的词向量特征之前,还包括:
对分词之后的所述企业名称中的企业属性领域词和企业专名领域词进行语义增强。
4.根据权利要求1所述的方法,其特征在于,还包括:
对原始数据集合中的企业名称的标签类别值为空的企业名称进行删除,得到第一备用数据集合;
去除所述第一备用数据集合中出现次数低于n次的企业名称,得到第二备用数据集合;
对所述第二备用数据集合中企业名称进行去重,统计其出现的次数与各标签类别出现的占比,并去除占比低于p的标签类别,得到所述训练文本集合。
5.一种分类方法,其特征在于,所述方法应用于有监督的机器学习多分类模型,所述有监督的机器学习多分类模型是根据权利要求1至4任一项所述的行业分类模型训练方法形成的,所述方法包括:
对待测企业名称进行分词和语义增强,得到待测企业名称的词向量特征,并输入至所述有监督的机器学习多分类模型,得到所述待测企业名称所属的行业类型。
6.一种行业分类模型训练装置,其特征在于,包括:
构建单元,用于构建企业名称的领域词词库,所述领域词词库包括领域和领域词的对应关系,所述领域包括地名、企业专名、企业属性和固定表达;
处理单元,用于根据所述领域词词库,对训练文本集合中的企业名称进行分词,得到所述企业名称的词向量特征,所述企业名称的词向量特征由所述企业名称分词之后的各个词向量加权组合得到的,所述训练文本集合包括所述企业名称的标签类别;
训练单元,用于根据所述企业名称的词向量特征和所述企业名称的标签类别,对用于行业分类的分类器进行训练,得到有监督的机器学习多分类模型。
7.如权利要求6所述的装置,其特征在于,所述构建单元,还用于:
根据企业名称的组成规则,对收集的企业名称集合中的各类领域词和所属领域进行识别,得到领域词词库。
8.如权利要求6所述的装置,其特征在于,所述处理单元,还用于:
对分词之后的所述企业名称中的企业属性领域词和企业专名领域词进行语义增强。
9.如权利要求6所述的装置,其特征在于,所述处理单元,还用于:
对原始数据集合中的企业名称的标签类别值为空的企业名称进行删除,得到第一备用数据集合;
去除所述第一备用数据集合中出现次数低于n次的企业名称,得到第二备用数据集合;
对所述第二备用数据集合中企业名称进行去重,统计其出现的次数与各标签类别出现的占比,并去除占比低于p的标签类别,得到所述训练文本集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银联数据服务有限公司,未经银联数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010664798.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:燃气-空气联合循环分布式能源系统
- 下一篇:取代苯丙咪唑类衍生物及其应用