[发明专利]从互联网中识别分析企业主体信息方法、装置及存储介质有效
申请号: | 201911391120.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111191103B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 贾新;李善平;朱红生;晋梁昊 | 申请(专利权)人: | 河南拓普计算机网络工程有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F9/54 |
代理公司: | 郑州铭晟知识产权代理事务所(特殊普通合伙) 41134 | 代理人: | 李慧敏 |
地址: | 450000 河南省郑州市金*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 识别 分析 企业 主体 信息 方法 装置 存储 介质 | ||
1.一种从互联网中识别分析企业主体信息方法,其特征在于,该方法包括以下步骤:
将N个企业主体信息划分为M个不同的区域,利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;
以I个所述字典树为一个小组,将M个字典树分为J个小组;
将所述J个小组聚合为一个企业主体信息识别服务;
将所述企业主体信息识别服务封装为统一的远程过程调用接口;
调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储所识别的企业主体信息及相应的查询结果;
所述字典树算法采用ac自动机算法,所述ac自动机算法中在构建失败指针之后,还包括以下步骤:
对失败指针的二次处理:在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针所指向节点的子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针所指向节点的子节点中具有和该尾节点所代表的字符串相同的节点。
2.根据权利要求1所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述构建字典树时,采用多线程进行并行构建。
3.根据权利要求2所述的一种从互联网中识别分析企业主体信息方法,其特征在于,所述把尾节点的失败指针修改为其父节点的失败指针的失败指针所指向节点的子节点之后,还包括:为每个节点添加是否为一个词的结尾的属性。
4.根据权利要求3所述的一种从互联网中识别分析企业主体信息方法,其特征在于,在所述为每个节点添加是否为一个词的结尾的属性之后,还包括:
若某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
5.一种从互联网中识别分析企业主体信息装置,其特征在于,该装置包括:
区域划分模块,用于将N个企业主体信息划分为M个不同的区域;
字典树构建模块,用于利用字典树算法对每个所述区域中的所有所述企业主体信息构建字典树,得到M个字典树;所述字典树构建模块采用ac自动机算法构建所述字典树,在利用所述ac自动机算法构建失败指针之后还包括修正模块,所述修正模块用于在同时满足以下条件时,直接把尾节点的失败指针修改为其父节点的失败指针的失败指针的所指向节点子节点:
条件1:某一尾节点的所代表的字符串和其父节点所代表的字符串相同;
条件2:该尾节点的失败指针不是根节点,且其失败指针的父节点是根节点;
条件3:该尾节点的父节点的失败指针的失败指针不是指向根节点,且其父节点的失败指针的失败指针所指向节点的子节点中具有和该尾节点所代表的字符串相同的节点;
分组模块,用于以I个所述字典树为一个小组,将M个字典树分为J个小组;
生成服务模块,用于将所述J个小组聚合为一个企业主体信息识别服务;
封装模块,用于将所述企业主体信息识别服务封装为统一的远程过程调用接口;
查询模块,用于调用所述远程过程调用接口,同时使用多线程对所述J个小组进行并行查询;
存储模块,用于存储所识别的企业主体信息及相应的查询结果。
6.根据权利要求5所述的一种从互联网中识别分析企业主体信息装置,其特征在于,该装置包括多个并行的字典树构建模块。
7.根据权利要求6所述的一种从互联网中识别分析企业主体信息装置,其特征在于,所述修正模块,还包括:
添加单词属性模块,用于为每个节点添加是否为一个词的结尾的属性;
添加分支指针模块,用于在某一节点向其根节点回溯的过程中所产生的关键词和该根节点的某个分支的关键词完全相同,则把所述节点的branch列表中添加一个指向所述分支的尾节点的指针。
8.一种存储介质,该存储介质中存储有计算机可读的程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南拓普计算机网络工程有限公司,未经河南拓普计算机网络工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911391120.8/1.html,转载请声明来源钻瓜专利网。