[发明专利]财经领域非结构化文本数据的挖掘、搜索方法与系统在审
申请号: | 201810370496.X | 申请日: | 2018-04-24 |
公开(公告)号: | CN108846006A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 周焕来;尹凯;赵宏森;罗钰敏;刘丹 | 申请(专利权)人: | 成都量子矩阵科技有限公司;电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙) 11411 | 代理人: | 郑自群 |
地址: | 610094 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 挖掘 财经领域 非结构化文本 关联关系 命名实体 信息提取 关联 图谱 搜索 数据预处理模块 数据采集模块 分析模块 复杂网络 关联网络 深层信息 数据分析 数据清洗 图谱构建 网络构建 信息构建 构建 隐含 可读性 直观 | ||
1.一种财经领域非结构化文本数据的挖掘方法,其特征在于,包括如下步骤:
S1,采集数据,从互联网指定财经领域爬取数据;
S2,清洗数据,以去掉在爬取过程中没有剔除的CSS字段或者段落标签,然后存入数据库;
S3,预处理数据,读取存储在步骤S2中数据库中的数据,对所获取数据的正文中的句子做分词处理和命名实体识别处理,并将处理后的信息保存到数据库中;
S4,挖掘关联关系,挖掘命名实体之间的关联关系;
S5,构建关联图谱,使用挖掘出的关联关系构建关联图谱,使用命名实体作为顶点,关联关系作为两个顶点之间的边构建关联网络;
S6,挖掘关联图谱中的关键节点、关键路径以及任意两点之间的最短路径。
2.根据权利要求1所述的一种财经领域非结构化文本数据的挖掘方法,其特征在于,包括可视化步骤S7;
S7,接收数据,展示步骤S5中的关联网络、步骤S6中的关键节点、关键路径以及任意两点之间的最短路径。
3.根据权利要求1所述的一种财经领域非结构化文本数据的挖掘方法,其特征在于,在步骤S3中,基于实体名称语义相似度以及实体共现挖掘实体之间的关联。
4.根据权利要求1所述的一种财经领域非结构化文本数据的挖掘方法,其特征在于,在步骤S4中,衡量实体关联关系网络中关系的紧密程度,给定一个中心点,与中心点直接相连的为一度节点,与一度节点相连的为二度节点。
5.根据权利要求1所述的一种财经领域非结构化文本数据的挖掘方法,其特征在于,在步骤S5中,所述构建关联网络包括构建六度关联网络,即:
给定一个中心点,生成以该点为中心的六度关联网络,首先初始化一个中心节点集合,将中心节点加入集合中,初始化一个候选节点集合,搜索关联网络,与中心点直接相连的为一度节点加入候选节点集合中,将中心节点集合和候选节点集合合并成为新的中心节点集合,查找关联关系网络中与中心节点集合中节点相连且不再中心集合中的节点,并加入候选节点,以此类推直到生成六度网络,或者直到所有节点都已经在六度网络中。
6.一种基于权利要求5所述六度网络的搜索方法,其特征在于,给定任意的两个或两个以上命名实体,在关联关系网络中搜索任意两两之间的关联路径,以关联路径上的节点和给定的节点构成子图节点集合生成子网络。
7.一种财经领域非结构化文本数据的挖掘系统,其特征在于,包括数据采集模块、数据清洗模块、数据预处理模块、关联挖掘模块、关联图谱构建模块和复杂网络分析模块;
所述数据采集模块,用于从互联网指定财经领域爬取数据;
所述数据清洗模块,用于去掉在爬取过程中没有剔除的CSS字段或者段落标签,然后存入数据库;
所述数据预处理模块,用于读取存储在数据库中的数据,对所获取数据的正文中的句子做分词处理和命名实体识别处理,并将处理后的信息保存到数据库中;
所述关联挖掘模块,用于使用数据库中预处理以后的信息,挖掘命名实体之间的关联关系,并提供给关联图谱构建模块;
所述关联图谱构建模块,用于使用挖掘出的关联关系构建关联图谱,使用命名实体作为顶点,关联关系作为两个顶点之间的边构建网络;
所述复杂网络分析模块,用于挖掘关联图谱中关键节点及关键路径,以及任意两点之间的最短路径。
8.根据权利要求7所述的一种财经领域非结构化文本数据的挖掘系统,其特征在于,所述关联挖掘模块包括衡量子模块;
所述衡量子模块,用于衡量实体关联关系网络中关系的紧密程度,给定一个中心点,与中心点直接相连的为一度节点,与一度节点相连的为二度节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都量子矩阵科技有限公司;电子科技大学,未经成都量子矩阵科技有限公司;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810370496.X/1.html,转载请声明来源钻瓜专利网。