[发明专利]从互联网中识别分析企业主体信息方法、装置及存储介质有效
申请号: | 201911391120.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191103B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 贾新;李善平;朱红生;晋梁昊 | 申请(专利权)人: | 河南拓普计算机网络工程有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F9/54 |
代理公司: | 郑州铭晟知识产权代理事务所(特殊普通合伙) 41134 | 代理人: | 李慧敏 |
地址: | 450000 河南省郑州市金*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 识别 分析 企业 主体 信息 方法 装置 存储 介质 | ||
本发明涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质,该方法包括以下步骤:将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;以I个所述字典树为一个小组,将M个字典树分为J个小组;将所述J个小组聚合为一个企业主体信息识别服务;将所述企业主体信息识别服务封装为统一的远程过程调用接口;调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;存储所识别的企业主体信息及相应的查询结果,实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。
技术领域
本发明涉及企业主体信息的识别和分析技术领域,具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质。
背景技术
数据作为大数据时代重要的资源,分散在各行业,其中互联网上的数据资源尤为巨大,并以惊人的速度增长,数据中存在大量的、有价值的信息,如新闻、企业招聘信息、自媒体信息、招投标信息等。国家市场监督总局2019年2月发布信息,全国市场主体数量1.11亿户,其中企业3500万户,而与之关联的数据大量存在互联网中,目前对互联网信息的识别常用的有以下几种技术:
A、正则表达式
正则表达式只适合匹配文本字面,不适合匹配文本意义,写一个复杂的HTML信息匹配识别的正则比较麻烦,不如使用针对特定意义的处理器来处理。
优势在于:只要熟练应用正则表达式,而且匹配的目标是纯文本,那么相比于写分析器来说,正则可以更快速的完成工作。还有在捕获字符串的能力,正则也可以很好的完成工作。
不足之处:写法复杂,替换功能差、容易引起性能问题,可读性差等。
B、DOM分析器
DOM分析器的优点在于:开发人员只需调用建树指令,利用navigation APIs访问所需的树节点来完成任务,编程容易,添加和修改树中的元素容易。
不足之处:DOM分析器在处理很大的XML文档时,需要频繁的改变的服务中,对性能和内存的要求比较高。
C、Jsoup
通过HttpClient先获取到html,直接解析某个URL地址、HTML文本内容。
优点在于:它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
不足之处:ajax加载的异步数据,信息内容无法识别并解析。
发明人在实践中,发现上述现有技术存在以下缺陷:
上述识别方法所采用的搜索技术多为以少数关键词去长文本当中搜索,但是目前的需求是从长文本当中识别短的企业主体名称。并且在无算法情况下,逐条信息与企业名称匹配,时间代价太大。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种从互联网中识别分析企业主体信息方法、装置及存储介质,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种从互联网中识别分析企业主体信息方法,该方法包括以下步骤:
将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;
以I个所述字典树为一个小组,将M个字典树分为J个小组;
将所述J个小组聚合为一个企业主体信息识别服务;
将所述企业主体信息识别服务封装为统一的远程过程调用接口;
调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南拓普计算机网络工程有限公司,未经河南拓普计算机网络工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911391120.8/2.html,转载请声明来源钻瓜专利网。