[发明专利]财经领域非结构化文本数据的挖掘、搜索方法与系统在审

申请号：	201810370496.X	申请日：	2018-04-24
公开（公告）号：	CN108846006A	公开（公告）日：	2018-11-20
发明（设计）人：	周焕来;尹凯;赵宏森;罗钰敏;刘丹	申请（专利权）人：	成都量子矩阵科技有限公司;电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京联瑞联丰知识产权代理事务所(普通合伙) 11411	代理人：	郑自群
地址：	610094 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种财经领域非结构化文本数据的挖掘、搜索方法与系统，提供一种财经领域非结构化文本数据的命名实体识别、实体间关联关系挖掘、以及关联关系网络构建及利用的方案，主要针对财经领域信息提取、命名实体识别、关联关系挖掘、关联网络的构建及利用；所述系统包括数据采集模块、数据清洗模块、数据预处理模块、关联挖掘模块、关联图谱构建模块和复杂网络分析模块。本发明不仅能完成基本的数据分析和信息提取工作，还能使用挖掘出的信息构建经济图谱，并使用经济图谱挖掘深层信息和隐含关联，使数据具有更直观的可读性和利用价值。
搜索关键词：	挖掘财经领域非结构化文本关联关系命名实体信息提取关联图谱搜索数据预处理模块数据采集模块分析模块复杂网络关联网络深层信息数据分析数据清洗图谱构建网络构建信息构建构建隐含可读性直观
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种财经领域非结构化文本数据的挖掘方法，其特征在于，包括如下步骤：S1，采集数据，从互联网指定财经领域爬取数据；S2，清洗数据，以去掉在爬取过程中没有剔除的CSS字段或者段落标签，然后存入数据库；S3，预处理数据，读取存储在步骤S2中数据库中的数据，对所获取数据的正文中的句子做分词处理和命名实体识别处理，并将处理后的信息保存到数据库中；S4，挖掘关联关系，挖掘命名实体之间的关联关系；S5，构建关联图谱，使用挖掘出的关联关系构建关联图谱，使用命名实体作为顶点，关联关系作为两个顶点之间的边构建关联网络；S6，挖掘关联图谱中的关键节点、关键路径以及任意两点之间的最短路径。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都量子矩阵科技有限公司;电子科技大学，未经成都量子矩阵科技有限公司;电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810370496.X/，转载请声明来源钻瓜专利网。

上一篇：漫画资源推荐方法及装置
下一篇：构建经济图谱及应用经济图谱进行深层信息挖掘的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]财经领域非结构化文本数据的挖掘、搜索方法与系统在审

专利文献下载