[发明专利]基于互联网信息抓取的企业业务标签挖掘的方法和系统在审
申请号: | 202210079381.1 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114491209A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 陈秀玲;张全;卓可秋 | 申请(专利权)人: | 南京中新赛克科技有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/33;G06F16/335;G06F16/35;G06F40/216 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211153 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互联网 信息 抓取 企业 业务 标签 挖掘 方法 系统 | ||
本发明公开了一种基于互联网信息抓取的企业业务标签挖掘的方法和系统,所述方法步骤如下:给定公司名称,拼接一系列搜索关键词,从后台自动抓取互联网搜索结果文本;对搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;对段落排序得分最高的前5条结果进行业务标签抽取;对无法直接抽取业务标签的企业,进行业务标签生成。本发明所依赖的信息来源于开发领域的互联网信息,进行公司业务标签挖掘时仅需要提供公司名称,系统后台自动从互联网上抓取信息并分析挖掘,所抓取的信息不限来源种类和格式,给企业业务标签挖掘提供了极大的方便性、灵活性、泛化性;本发明结合多种NLP深度学习模型和方法,在企业业务标签挖掘中取得较好的效果。
技术领域
本发明涉及自动化,特别是一种基于互联网信息抓取的企业业务标签挖掘的方法和系统。
背景技术
标签思维是互联网时代的核心思维之一,也是一个对象能被快速了解的渠道之一。而企业的业务标签可以让投资者快速了解该企业的核心业务,以及其在整个供应链中的主要角色。如南京中新赛克科技有限公司的业务标签为“通信信息安全服务提供商”。
这个标签需要是高度抽象的描述企业的主要业务,而不同的企业又基本上不相同的。所以事先不能够定义好所有的标签类别,就不能使用传统的分类方法得到。而公开互联网上对公司业务的描述信息可能是冗长的,如“中新赛克是一家国有控股的上市公司(002912),紧密围绕国家安全战略需求,将“构建更数字、更安全、更健康的世界”作为企业使命,专注于数据提取、数据融合计算及其在信息安全、...”,且该条信息的来源可能是企业官网、百度百科、爱企查、企查查、一些论坛网站、社交网站等,其在搜索引擎查询中可能排序在比较靠后的位置。
基于上述原因,企业业务标签挖掘有较大的难度。一是标签不固定无法使用传统的处理标签画像类的分类方法来给企业打业务标签。二是无法确定从一个固定上下文描述风格固定又一定含有该企业业务相关描述的渠道中获取到信息来源,换句通俗的话来说,就是不知道哪里有企业业务相关的描述,需要到网上去找才知道。所以使用单一的模型和单一的技术手段,很难取得较好的效果。
因此,给企业打业务标签是业界共同的难题,当前业界在打标过程中主要还是依赖人工对搜索互联网上该公司的相关信息后进行筛选和总结,甚至对企业进行实地调研后进行打标,效率很低,少数自动化打标的已知系统中,仅能应用与先人工整理出一系列已知的业务标签,然后使用分类的技术,来给企业进行画像打标。但对于这种事先无法限定标签类型和标签内容的企业业务标签打标问题,还需要研究探索一种效果更好的自动化打标方法和系统来解决该问题。
发明内容
发明目的:本发明的目的是提供一种基于互联网信息抓取的企业业务标签挖掘方法和系统,从而在不限定企业类型、不限定业务标签种类和内容、不提供同类型企业业务描述上下文的情况下,自动化挖掘简短、通顺的企业业务标签。
技术方案:本发明所述的一种基于互联网信息抓取的企业业务标签挖掘方法,包括以下步骤:
(1)给定一个公司名称,根据该公司名称拼接一系列的搜索关键词,从后台自动抓取互联网搜索结果文本;企业业务相关的描述,来源于网络上不同的渠道,可以通过拼接不同的关键词,从百度搜索引擎上抓取尽量全面的信息。
(2)对上一步互联网爬取到的搜索结果进行排序,获取最有可能包含企业业务描述的前5条文本;该处理步骤相当于搜索结果排序。搜索结果排序算法有很多,其中比较典型的是基于词频统计的TF-IDF算法,基于n-gram的BM25算法,基于近年来基于自然语言语义向量深度学习模型。因TF-IDF和BM25等算法没有考虑“业务标签”这一抽象的语义和段落之前的关联关系,所以我们使用基于深度学习预训练模型微调的句子对匹配模型,来计算某一条搜索结果包含企业业务描述的得分,根据得分多少来进行排序,并取得分最高的前5条记录。
(3)对段落排序得分最高的前5条结果,进行业务标签抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中新赛克科技有限责任公司,未经南京中新赛克科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079381.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医疗设备检查结果显示装置
- 下一篇:机用模具头
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置