[发明专利]一种气溶胶文献格式化数据库的构建方法在审
申请号: | 201910469969.6 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110222057A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 张克俊;郑俊;黄小倚;陈洁;刘东;毕磊 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F16/25;G06F16/951 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟;曹兆霞 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 气溶胶 数据图 格式化 文本 统计信息 数据库 文献数据 构建 文本预处理 模板匹配 数值属性 索引关系 知识服务 坐标信息 数据点 存储 统计 转换 全球 | ||
1.一种气溶胶文献格式化数据库的构建方法,包括以下步骤:
(1)收集全球气溶胶文献数据,确定气溶胶文献数据的文献相关属性、文本统计信息属性、数据图具体数值属性;
(2)提取每个气溶胶文献的文献相关属性,形成文献相关属性数据表;
(3)对每个气溶胶文献进行PDF到TXT文本格式转换、文本预处理以及正则模板匹配,以实现文本统计信息的提取,形成文本统计数据表;
(4)对数据图进行数据点坐标信息提取,以提取数据图具体数值,形成数据图具体数值数据表;
(5)建立文献相关属性数据表、文本统计数据表以及数据图具体数值数据表之间的索引关系,将对应的文献相关属性、文本统计信息以及数据图具体数值进行存储,形成气溶胶文献格式化数据库。
2.如权利要求1所述的气溶胶文献格式化数据库的构建方法,其特征在于,文献相关属性、文本统计信息属性、数据图具体数值属性包括:
3.如权利要求1所述的气溶胶文献格式化数据库的构建方法,其特征在于,步骤(3)中,采用python的库pdfminer将PDF文件转换成TXT文本;
采用python的自然语言处理库NLTK来进行分词、去除停用词、词干提取和命名实体识别,以实现对文本预处理;
正则模板匹配包括以下步骤:
(a)关键词定位:通过字符串匹配在气溶胶文献文本中搜索并定位八种光学参数名的首字符所对应的位置,其中,八种光学参数名包括激光雷达比、退偏比、后向散射系数、消光系数、光学厚度、谱退偏振比、色比、Angstrom指数;
(b)属性实体识别:采用基于NLTK的命名实体识别技术来识别地址,通过正则表达式匹配时间、地点、波长、气溶胶类型以及光学参数数值;
(c)段落内规则匹配:根据段内最近匹配规则将关键词和属性实体关联,实现自动提取文本中匹配到的结构化信息并进行段落内容展示,然后,通过人工阅读审核的方式对此提取结果进行修正和补充。
4.如权利要求1所述的气溶胶文献格式化数据库的构建方法,其特征在于,步骤(4)具体包括:
(4-1)对数据图进行倾斜矫正和数据点区域提取;
(4-2)对每类数据图,对数据点区域进行数据点提取;
(4-3)按照预设的坐标属性和坐标阈值将每个数据点转化为数据点坐标信息。
5.如权利要求4所述的气溶胶文献格式化数据库的构建方法,其特征在于,步骤(4-1)具体包括:
采用平均值法对数据图进行灰度化,获得灰度图像;
采用OpenCV的Canny算子检测灰度图像的图像边缘;
采用Hough变换检测方法检测图像边缘内的直线集合,并提取最长直线L1;
计算最长直线L1的倾斜角度,根据倾斜角度对灰度图像进行旋转以实现倾斜矫正;
在图像边缘内搜索与最长直线L1垂直的最长垂直交线L2,以最长直线L1和最长垂直交线L2的交点为原点,以最长直线L1和最长垂直交线L2作为边界,提取数据点区域。
6.如权利要求5所述的气溶胶文献格式化数据库的构建方法,其特征在于,当数据图为散点图时,采用霍夫梯度法进行霍夫圆形检测,以获得散点图中的圆形像素点,该圆形像素点即为数据点;
当数据图为折线图时,根据高度从上到下遍历每一行对应的像素列表中所有像素点,求每一行像素点的中位数作为数据点;
当数据图为柱形图时,采用边缘检测方法识别横线,并当横线上方面积为空白区域时,该横线的中间像素点即为数据点。
7.如权利要求4所述的气溶胶文献格式化数据库的构建方法,其特征在于,步骤(4-3)具体包括:
利用公式(1)和公式(2)将数据点转化为数据点坐标信息:
x=X1+(X2-X1)*b/width (1)
y=Y1+(Y2-Y1)*(height-a+1)/height (2)
其中,X1、X2、Y1、Y2分别为预设的横坐标轴最小值、最大值,纵坐标最小值、最大值,(a,b)表示数据点的像素坐标,width和height分别表示数据图的宽度和高度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910469969.6/1.html,转载请声明来源钻瓜专利网。