[发明专利]一种中文学术研究热点区域信息自动提取和地图制作方法有效

专利信息
申请号: 201910149592.6 申请日: 2019-02-28
公开(公告)号: CN109871424B 公开(公告)日: 2021-05-04
发明(设计)人: 胡云锋;韩月琪 申请(专利权)人: 中国科学院地理科学与资源研究所
主分类号: G06F16/29 分类号: G06F16/29;G06F16/951
代理公司: 成都方圆聿联专利代理事务所(普通合伙) 51241 代理人: 曹少华
地址: 100101 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 学术研究 热点 区域 信息 自动 提取 地图 制作方法
【说明书】:

发明公开了一种面向中文学术资源的研究热点区域信息自动提取和地图制作方法。本发明首先爬取海量指定主题的中文文献,经网页解析获得标题、摘要、关键词等信息;对上述文本信息进行中文分词、地名实体识别、地名标准化等操作,明确这些特定文献所指向的研究区域,并统计各研究区域的文献数量;同时根据文献空间定位结果,继续统计涉及该区域的全部文献的数量;最后基于综合指数模型计算研究热度值,并将结果以专题地图形式展示。本发明能够自动完成对海量中文文本的信息抽取、热度计算和地图制图,理解特定主题研究工作的空间分布特征。

技术领域

本发明属于信息处理技术领域,具体为一种中文学术研究热点区域信息自动提取和地图制作方法。

背景技术

随着信息化及互联网水平的不断发展,越来越多的科研成果得以被整合及存储到结构化的知识数据库中。面对海量的研究成果发表物数据,传统通过人工阅读抽取信息定位研究热点的方式显然已经不可行,文本处理技术及自然语言理解技术的发展为快速而准确的从大规模文献数据中抽取可用信息提供了可能性。目前已存在的EnvMine系统提供了对海量文本的处理方法,并完成了对物理化学量的空间定位,但仍存在功能上的不足,主要表现在:

(1)EnvMine更适合英文文本的处理,首先,其中识别物理化学变量所使用的标准词汇列表依靠英文词汇和语境建立,导致使用该词汇列表无法对中文文章中的变量进行匹配;其次在确定地理位置的过程中,识别地名的方法也根据英文语法建立。在英文中地理位置是专有名词,以大写字母开头,这在中文文本中是不成立的。以上两处语言限制导致EnvMine无法对中文文本进行处理;

(2)EnvMine主要针对采样点进行识别,能够涵盖的主题十分有限,只适用于生态学领域的研究人员;

(3)EnvMine的结果展示了采样点的空间分布,但未能量化地表示其分布密度等特征。

因此,本发明旨在提供一种可自动生成特定主题研究热点空间分布的文本信息抽取方法。

发明内容

针对上述背景技术存在的问题,本发明旨在提供一种操作简便、可获得指定主题研究热点空间分布、为任意领域的使用者提供服务、且具有可视化功能的信息自动提取和地图制作方法。

为此,本发明采用以下技术方案:一种中文学术研究热点区域信息自动提取和地图制作方法,其中包括数据库模块、数据获取及预处理模块、空间定位模块、研究热度计算模块和成果展示模块。

作为对上述技术方案的补充和完善,本发明还包括以下技术特征。

所述的数据库模块基于SQLite构建,数据库中包括项目信息表、标准地名数据表、研究背景值表、文献信息表、研究热度表、已匹配地名表、未匹配地名表。

所述的项目信息表包含单次检索操作项目的名称、ID及开始时间等字段;所述的标准地名数据表依据中国县级行政区划图、1:25万基础地理数据库及中国历史时期县级行政区划数据库建立;所述的研究背景值表中采用某一地区地名在数据源平台中不分主题检索所得的总文献数量作为该地区的“研究背景值”;所述的文献信息表、研究热度表、已匹配地名表、未匹配地名表根据单次检索操作项目的数据存储需求建立,首先在项目信息表中插入本次检索操作项目的名称及日期,自动获得唯一ID,然后根据该ID值建立文献信息表、研究热度表、已匹配地名表、未匹配地名表等系列数据表。

所述的数据获取及预处理模块负责大规模文本数据的获取及预处理,并将获取的数据存储到数据库模块。其中包含的具体方法如下:

一、确定检索主题及方式,输入项目名称及存储位置、提供欲检索的关键词,并选择检索范围(全文/主题/篇名/关键词/摘要)及关键词组合方式(或者/并且/不含);

二、数据获取,基于HTTP GET/POST方法,根据上述检索主题及方式对相关文献数据进行获取,具体过程为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910149592.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top