[发明专利]一种基于多特征动态画像的企业隐藏标签抽取方法及装置在审
申请号: | 202110382663.4 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113051914A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李翔;丁行硕;谢乾;高尚兵;朱全银;王留洋;王媛媛;马甲林;费可可;吴杰;焦英杰;朱鹏程 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 223003 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 动态 画像 企业 隐藏 标签 抽取 方法 装置 | ||
本发明公开了一种基于多特征动态画像的企业隐藏标签抽取方法及装置,该方法首先对企业信息更新并使用K‑means对其聚类,将聚类后的企业文本信息打上标签形成若干个标签点簇;接着,将此文本信息作为多特征隐藏信息抽取的样本集,对其进行中文分词并引入企业词库进行特征拓展,传入Bert模型发现潜在特征;然后,利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;最后,动态更新企业信息传入多特征文本分类模型获得文本的隐藏标签信息。本发明普遍适用于企业画像标签建模和隐藏标签抽取问题,充分考虑了企业文本的上下文信息,可以有效发现企业文本中的隐藏标签,实现动态画像的标签实时更新。
技术领域
本发明属于企业画像和自然语言处理技术领域,特别涉及一种基于多特征动态画像的企业隐藏标签抽取方法及装置。
背景技术
近年来,随着知识图谱与大数据的快速发展,画像技术受到学术界广泛的关注。目前比较流行的企业画像在税务管理、风险评估、市场监管、环境保护等方面有着广泛的应用,其网站不仅具备传统门户网站的信息服务功能,还能提供许多与标签相关的服务如热点分析和企业推荐等。作为一种新型的画像技术应用,企业画像中不仅包含大量企业、位置等多模实体,还拥有大量的异质关系和文本特征,比如企业位置关系、企业竞争合作关系以及企业研究者发表的论文专利关系。在企业画像中,标签体系建设是画像研究的重要部分,是通过企业基础的统计类标签,以及行为产生的规则类标签,最后是数据挖掘产生的挖掘类标签共同构建而成。通过画像技术对不同维度信息筛选整合,能够以不同的形式向企业、政府提供服务。
现有的企业画像隐藏标签抽取还存在以下问题:1、传统企业标签抽取方法无法有效发现文本的多特征信息,导致标签准确率下降;2、传统企业标签抽取方法无法对企业隐藏标签动态更新,当有新的企业信息传入时,企业画像的构建效率变低。针对这些问题,本发明提出了一种基于多特征动态画像的企业隐藏标签抽取方法。该方法首先对企业信息更新并使用K-means对其聚类,将聚类后的企业文本信息打上标签形成若干个标签点簇;接着,将此文本信息作为多特征隐藏信息抽取的样本集,对其进行中文分词并引入企业词库进行特征拓展,传入Bert模型发现潜在特征;然后,利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;最后,动态更新企业信息传入此模型获得文本的隐藏标签信息。本发明普遍适用于隐藏标签抽取和动态画像问题,充分考虑了企业文本的多特征信息和企业信息的实时更新,可以有效的提高标签抽取的准确率。
本发明中的多特征企业隐藏标签抽取方法对企业画像有着重要的作用和意义。在面对画像隐藏标签问题的时候,研究者们通常会选择使用关键词抽取和文本聚类,但是这些方法都存在明显的不足,其无法发现文本的多特征信息,导致抽取后的标签概括能力差,且无法对隐藏的企业标签进行动态更新。因此,为更好的应对复杂文本的标签抽取,神经网络依据出色的自适应和实时学习特点成为常用方法,其能发现文本的多特征信息,聚类算法可以有效发现无监督抽取中的样本点簇,避免了大量数据的人工标注。
发明内容
发明目的:针对上述问题,本发明提供了一种基于多特征动态画像的企业隐藏标签抽取方法及装置,能够有效挖掘企业隐藏信息,弥补传统企业画像的不足,提高实际应用效率。
发明内容:本发明提供了一种基于多特征动态画像的企业隐藏标签抽取方法,具体包括以下步骤:
(1)更新企业信息得到企业数据集D,使用K-means对数据集D聚类,得到N个聚类点簇;
(2)将聚类后的企业数据集打上标签形成N个带标签的点簇,得到样本集D2,并对D2进行预处理,得到样本集D3;
(3)对D3进行中文分词并引入企业词库进行特征拓展,构建Bert模型,将样本集D3作为模型的输入,得到融合全文语义信息的特征向量T;
(4)将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110382663.4/2.html,转载请声明来源钻瓜专利网。