[发明专利]一种中文学术研究热点区域信息自动提取和地图制作方法有效
申请号: | 201910149592.6 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109871424B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 胡云锋;韩月琪 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/951 |
代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 曹少华 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 学术研究 热点 区域 信息 自动 提取 地图 制作方法 | ||
1.一种中文学术研究热点区域信息自动提取和地图制作方法,其特征在于:所述的中文学术研究热点区域信息自动提取和地图制作方法包括数据库模块、数据获取及预处理模块、空间定位模块、研究热度计算模块和成果展示模块;所述的数据库模块基于SQLite构建,数据库中包括项目信息表、标准地名数据表、研究背景值表、文献信息表、研究热度表、已匹配地名表、未匹配地名表;所述的项目信息表包含单次检索操作项目的名称、ID及开始时间字段;所述的标准地名数据表依据中国县级行政区划图、1:25万基础地理数据库及中国历史时期县级行政区划数据库建立;所述的研究背景值表中采用某一地区地名在数据源平台中不分主题检索所得的总文献数量作为该地区的“研究背景值”;所述的文献信息表、研究热度表、已匹配地名表、未匹配地名表根据单次检索操作项目的数据存储需求建立,首先在项目信息表中插入本次检索操作项目的名称及日期,自动获得唯一ID,然后根据该ID值建立文献信息表、研究热度表、已匹配地名表、未匹配地名表;
所述的空间定位模块负责对文本中地名词汇进行识别、提取及标准化,其具体处理方法如下:
一、地名实体词识别:首先基于开源Java自然语言处理算法包HanLP中的分词模块与实体词识别模块,对爬取到的文本关键词及摘要数据进行中文分词及地名实体词识别;进而对识别出的地名进行预处理,预处理过程包括对同一篇文献中重复出现的地名进行去重,以及对被拆分成多个地名的组合地名进行合并;
二、地名标准化、行政区空间包容关系判断及地名频次汇总统计;目的在于将多层级、不规范的、存在多义性的地名词汇,统一到县级、规范的、唯一性的地名上,具体步骤如下:
(1)获取某篇文献摘要地名预处理后的全部地名列表T_List,对T_List进行县级地名循环判断:判断某待标准化地名T_i中是否含有省级地名词汇,若包含,去掉该省级地名词汇,将剩余部分作为新的待标准地名,与该省级地名词汇下属的所有县级地名词汇进行KMP算法模糊匹配;若T_i中不包含省级地名词汇,则与标准地名数据库中全部县级地名词汇进行模糊匹配;匹配规则为当T_i字符串有60%以上的连续部分与标准地名字符串相同时,认为T_i与该标准地名一致;如果匹配成功,为被匹配到的该县级词T_County的词频加1,同时获取该县级词上属市级地名词汇T_Prefecture及省级地名词汇T_Province,并从T_List列表中删除当前T_i;对T_List中的剩余待匹配地名进行循环查找,如果包含T_Prefecture及T_Province,对被包含的地名词进行剔除;
(2)对剩余T_List进行市级地名循环判断:判断某待标准化地名T_i中是否含有省级地名词汇,若包含,去掉该省级地名词汇,将剩余部分作为新的待标准地名,与该省级词汇下属的所有市级地名词汇进行精确匹配;若T_i中不包含省级地名词汇,则与标准地名数据库中全部市级地名词汇进行精确匹配;如果匹配成功,为被匹配到的该市级地名词汇T_Prefecture的词频加1,同时获取该市级地名词汇的其他别称以及该市级地名词汇上述省级地名词汇T_Province,并从T_List列表中删除当前T_i;对T_List中的剩余待匹配地名进行循环查找,如果包含该市级地名词汇T_Prefecture的别名及省级地名词汇T_Province,对被包含的地名词汇进行剔除;
(3)对剩余T_List进行省级地名循环判断:判断某待标准化地名T_i是否是省级地名词汇,如果匹配成功,为被匹配到的该省级地名词汇T_Province的词频加1,同时获取该省级词汇的别称,并从T_List中删除当前T_i;对T_List列表中的剩余待匹配地名进行循环查找,如包含该省级地名词汇的别称,对被包含的地名词汇进行剔除;
(4)若经过上述(1)、(2)、(3)步匹配后,T_List中仍包含未匹配到的词汇,将该未匹配到的词汇对应的地名及当前文献ID保存到数据库模块中的未匹配地名表中;
所述的研究热度计算模块负责在地名标准化之后,对各地名的出现频次进行叠加,并根据研究热度综合指数模型对各县级单元的研究热度进行计算,具体方法如下:首先,对地名出现频次进行叠加,将全部的地名频次汇总到县级单元上,叠加过程为对省、市两级表进行遍历,对每一个省级或市级地名,将其频次叠加到其下属全部县级地名词汇的频次上;其次,对各县级单元的研究热度进行计算,以综合考虑地名绝对热度和地名相对热度2个因子的综合热度指数作为研究热度的指标,其具体计算公式如下:
上式中,Q是A主题热度综合指数,Ngd为县域在A主题检索中出现的总次数,也即是县域在研究中的绝对热度;Nall是不限定主题检索后,县域名称在全部论文中出现的次数;
即为县域的相对热度;Q*是标准化A主题研究热度综合指数,Q*数值在0-1之间;max(Q)是Q的最大值,min(Q)是Q的最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910149592.6/1.html,转载请声明来源钻瓜专利网。