[发明专利]对象的行业类型识别方法和装置有效
申请号: | 201810420223.1 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108733778B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 赵辉;崔燕;岳爱珍;谭静 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对象 行业 类型 识别 方法 装置 | ||
1.一种对象的行业类型识别方法,其特征在于,包括:
将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到所述待识别对象的与行业类型相关的向量空间,所述向量空间包含所述待识别对象的行业信息;
根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象;
获取所述训练样本对象的标注数据,其中,所述标注数据用于指示出所述训练样本对象所隶属的行业类型;
利用所述训练样本对象的所述向量空间和所述标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;
针对除所述训练样本对象之外的每个第二待识别对象,将所述第二待识别的对象的向量空间,输入到所述目标行业类型识别模型中进行学习,得到所述第二待识别对象所隶属的行业类型。
2.根据权利要求1所述的方法,其特征在于,所述得到所述待识别对象的与行业类型相关的向量空间之后,还包括:
建立所述待识别对象的向量空间与所述待识别对象的标识信息之间的映射关系;
根据所述映射关系,将所述待识别对象的向量空间存储在词典中。
3.根据权利要求1所述的方法,其特征在于,所述将待识别对象的文本信息输入用于生成段落向量的语言模型中,得到所述待识别对象的与行业类型相关的向量空间,包括:
将所述文本信息分别输入到基于不同算法构建的所述语言模型中,得到每个语言模型输出的第一向量空间;
将不同语言模型输出的第一向量空间,组合成所述待识别对象的向量空间。
4.根据权利要求3所述的方法,其特征在于,所述每个语言模型输出的所述第一向量空间的维度相同。
5.根据权利要求1所述的方法,其特征在于,所述根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象,包括:
根据所述待识别对象的向量空间,计算所述待识别对象之间的相似度,根据所述相似度对所有的待识别对象进行聚簇;
从每个聚簇中随机抽取第一待识别对象,作为所述训练样本对象。
6.根据权利要求2所述的方法,其特征在于,所述将所述第二待识别对象的向量空间,输入到所述目标行业类型识别模型中之前,还包括:
获取所述第二待识别对象的标识信息;
根据所述第二待识别对象的标识信息,查询所述映射关系,从所述词典中得到所述第二待识别对象的向量空间。
7.一种对象的行业类型识别装置,其特征在于,包括:
第一输入模块,用于将待识别对象的文本信息输入用于生成段落向量的语言模型中进行学习,得到所述待识别对象的与行业类型相关的向量空间,所述向量空间包含所述待识别对象的行业信息;
选取模块,用于根据每个待识别对象的向量空间,从所有的待识别对象中选取第一待识别对象作为训练样本对象;
获取模块,用于获取所述训练样本对象的标注数据,其中,所述标注数据用于指示出所述训练样本对象所隶属的行业类型;
训练模块,用于利用所述训练样本对象的所述向量空间和所述标注数据,对构建的行业类型识别模型进行训练,得到目标行业类型识别模型;;
第二输入模块,用于针对除所述训练样本对象之外的每个第二待识别对象,将所述第二待识别的对象的向量空间,输入到所述目标行业类型识别模型中进行学习,得到所述第二待识别对象所隶属的行业类型。
8.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一所述的对象的行业类型识别方法。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令处理器执行时实现如权利要求1-6中任一所述的对象的行业类型识别方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的对象的行业类型识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810420223.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于概率统计的互联网舆情分析方法
- 下一篇:文本配图的方法和装置