[发明专利]从互联网中识别分析企业主体信息方法、装置及存储介质有效

申请号：	201911391120.8	申请日：	2019-12-30
公开（公告）号：	CN111191103B	公开（公告）日：	2021-08-24
发明（设计）人：	贾新;李善平;朱红生;晋梁昊	申请（专利权）人：	河南拓普计算机网络工程有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F9/54
代理公司：	郑州铭晟知识产权代理事务所(特殊普通合伙) 41134	代理人：	李慧敏
地址：	450000 河南省郑州市金***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	互联网识别分析企业主体信息方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及企业主体信息的识别和分析技术领域，具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质，该方法包括以下步骤：将N个企业主体信息划分为M个不同的区域，利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树，得到M个字典树；以I个所述字典树为一个小组，将M个字典树分为J个小组；将所述J个小组聚合为一个企业主体信息识别服务；将所述企业主体信息识别服务封装为统一的远程过程调用接口；调用所述远程过程调用接口，同时使用多线程对所述J个小组进行并行查询；存储所识别的企业主体信息及相应的查询结果，实现了快速的从互联网信息中快速识别企业主体信息并进行分析的目的。

技术领域

本发明涉及企业主体信息的识别和分析技术领域，具体涉及一种从互联网中识别分析企业主体信息方法、装置及存储介质。

背景技术

数据作为大数据时代重要的资源，分散在各行业，其中互联网上的数据资源尤为巨大，并以惊人的速度增长，数据中存在大量的、有价值的信息，如新闻、企业招聘信息、自媒体信息、招投标信息等。国家市场监督总局2019年2月发布信息，全国市场主体数量1.11亿户，其中企业3500万户，而与之关联的数据大量存在互联网中，目前对互联网信息的识别常用的有以下几种技术：

A、正则表达式

正则表达式只适合匹配文本字面，不适合匹配文本意义，写一个复杂的HTML信息匹配识别的正则比较麻烦，不如使用针对特定意义的处理器来处理。

优势在于：只要熟练应用正则表达式，而且匹配的目标是纯文本，那么相比于写分析器来说，正则可以更快速的完成工作。还有在捕获字符串的能力，正则也可以很好的完成工作。

不足之处：写法复杂，替换功能差、容易引起性能问题，可读性差等。

B、DOM分析器

DOM分析器的优点在于：开发人员只需调用建树指令，利用navigation APIs访问所需的树节点来完成任务，编程容易，添加和修改树中的元素容易。

不足之处：DOM分析器在处理很大的XML文档时，需要频繁的改变的服务中，对性能和内存的要求比较高。

C、Jsoup

通过HttpClient先获取到html，直接解析某个URL地址、HTML文本内容。

优点在于：它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

不足之处：ajax加载的异步数据，信息内容无法识别并解析。

发明人在实践中，发现上述现有技术存在以下缺陷：