[发明专利]一种中文机构名称实时分析方法及系统在审
申请号: | 201711404781.0 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108170672A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 文卫东;刘健博 | 申请(专利权)人: | 武汉数博科技有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430071 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文机构名称实时分析方法及系统。首先集合中文机构库和中文机构自动提取算法构建准全量中文机构词典,然后使用快速匹配算法将相关文本与准全量中文机构名称库进行匹配,并实时获取文本中相关机构的具体信息,同时使用热加载的方式对海量机构名称库进行实时维护。本发明可以准确的从文本内容中快速提取机构名称,并实时获取相关机构的详细内容,运算效率高,资源消耗小,准确率高,可以广泛应用于金融领域。 1 | ||
搜索关键词: | 中文 实时分析 实时获取 名称库 文本 快速匹配算法 金融领域 快速提取 实时维护 算法构建 文本内容 详细内容 运算效率 资源消耗 自动提取 准确率 加载 匹配 集合 应用 | ||
步骤1.构建金融机构名称词典,并存入数据库;
步骤2.将金融机构名称映射到多个Hash Table中,以减少资源空间的占用;
步骤3.加载待分析的文本内容,并将文本内容进行预处理,具体是将待分析的文本进行分词,并生成分词后的文本内容;
步骤4.判断预处理后的文本内容是否存在机构名称,如果存在则返回机构id;具体是使用n个bloom filter从未分词的文本内容中匹配机构名称,如果filter机构名称中存在相关内容,则返回机构id,并使用步骤3的分词结果确定返回机构id是否有效;
步骤5.根据机构id获取数据库中检索匹配机构的信息。
2.根据权利要求1所述的一种中文机构名称实时分析方法,其特征在于,步骤1的金融机构名称获取方法是:(1)海量中文机构库,该数据库中包含了相关机构全称、约定简称和机构的工商基础信息和相关名称的可信度;
(2)中文机构自动提取算法自动从文本中提取海量中文机构库中不存在的机构全称和简称。
3.根据权利要求1所述的一种中文机构名称实时分析方法,其特征在于,步骤1的具体实现方法包括:步骤1.1.计算文档集中词汇C左边词的信息熵,计算公式为:IEl(C)=‑∑s∈lP(aC|C)/log2P(aC|C),其中aC表示文档集中词汇C左边的首个词汇a,P(aC|C)表示在文档集中当C出现时aC出现的概率;
步骤1.2.计算文档集中词汇C右边词的信息熵,计算公式为:
IEr(C)=‑∑s∈rP(Cb|C)/log2P(Cb|C),其中Cb表示文档集中词汇C右边边的首个词汇b,P(Cb|C)表示在文档集中当C出现时Cb出现的概率;
步骤1.3.计算词汇序列W1W2...Wn的互信息,计算公式为:
其中,Wi表示分词后得到词汇集中的第i个词汇单元;
步骤1.4.根据互信息和左右邻界熵度量信息序列W1W2...Wn,计算公式为:
其中,FRE(W1W2...Wn)为词汇在文本集中的频率分布统计,根据设定的MIXvalue阈值找出候选机构名称词;
步骤1.5.根据候选机构名称在工商信息查询网站上确认最终需要加入机构词典的机构名称。
4.根据权利要求1所述的一种中文机构名称实时分析方法,其特征在于,所述步骤2将千万级别金融机构名称映射到一个Hash Table中,实现快速机构别的功能,具体步骤如下:步骤2.1.使用k个相互独立的哈希函数(Hash Function),分别将数据库中机构名称映射到{1,...,m}的范围中;
步骤2.2.对任意一个机构名称,当插入时,第i个哈希函数映射的位置hi(x)加1,当删除时,第i个哈希函数映射的位置hi(x)减1,重复操作,直至将数据库中的所有机构名称都遍历完,生成n个Bloom Filter。
5.一种中文机构名称实时分析系统,其特征在于,包括:词典构建模块:构建金融机构名称词典,并存入数据库;
名称映射模块:将金融机构名称映射到多个Hash Table中,以减少资源空间的占用;
文本内容预处理模块:加载待分析的文本内容,并将文本内容进行预处理,具体是将待分析的文本进行分词,并生成分词后的文本内容;
文本内容判断模块:判断预处理后的文本内容是否存在机构名称,如果存在则返回机构id;具体是使用n个bloom filter从未分词的文本内容中匹配机构名称,如果filter机构名称中存在相关内容,则返回机构id,并使用步骤3的分词结果确定返回机构id是否有效;
检索匹配模块:根据机构id获取数据库中检索匹配机构的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉数博科技有限责任公司,未经武汉数博科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711404781.0/,转载请声明来源钻瓜专利网。