[发明专利]一种基于多特征动态画像的企业隐藏标签抽取方法及装置在审
申请号: | 202110382663.4 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113051914A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李翔;丁行硕;谢乾;高尚兵;朱全银;王留洋;王媛媛;马甲林;费可可;吴杰;焦英杰;朱鹏程 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 223003 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 动态 画像 企业 隐藏 标签 抽取 方法 装置 | ||
1.一种基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,包括以下步骤:
(1)更新企业信息得到企业数据集D,使用K-means对数据集D聚类,得到N个聚类点簇;
(2)将聚类后的企业数据集打上标签形成N个带标签的点簇,得到样本集D2,并对D2进行预处理,得到样本集D3;
(3)对D3进行中文分词并引入企业词库进行特征拓展,构建Bert模型,将样本集D3作为模型的输入,得到融合全文语义信息的特征向量T;
(4)将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;
(5)动态更新企业信息形成数据集D4,将清洗后的数据集D5传入多特征文本分类模型获得文本的隐藏标签信息。
2.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(1)包括以下步骤:
(11)定义Text为单个待聚类企业文本,定义id,content分别为企业文本序号、企业文本,并且满足关系Text={id,content};
(12)定义D为待聚类企业数据集,D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待聚类企业文本,其中len(D)为D中文本数量,变量a∈[1,len(D)];
(13)使用K-means对数据集D进行聚类,得到N个聚类点簇;
(14)定义D1为聚类后的企业数据集,D1={d1,d2,…,dN},其中dN为第N个企业点簇数据集。
3.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将数据集D1中的N个企业点簇文本打上标签得到样本集D2,D2={Text11,Text12,…,Text1j,…Text1N},其中Text1j={label,dj},label为企业标签,变量j∈[1,N];
(22)对数据集D2中的文本进行去重和去空操作后,得到清洗后的企业样本集D3={Text21,Text22,…,Text2i,…Text2N},其中Text2i={label,di},label为企业标签,变量i∈[1,N]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110382663.4/1.html,转载请声明来源钻瓜专利网。