[发明专利]一种基于OCR技术的网络受保护指数数据的获取方法有效

申请号：	201610405523.3	申请日：	2016-06-06
公开（公告）号：	CN106095918B	公开（公告）日：	2020-03-06
发明（设计）人：	曾庆田;王松松;李超;段华;赵中英	申请（专利权）人：	山东科技大学
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/951;G06F21/62
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	杨树云
地址：	266590 山东省青岛***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于OCR技术的网络受保护指数数据的获取方法，本发明首先利用自动化测试工具，模拟指数数据显示之前用户在数据平台的一系列操作，如登录、输入搜索关键词、设置搜索时间等。然后利用模拟鼠标移动，进行曲线上值的动态显示和采集，最后，利用改进的OCR技术实现目标数据的数值获取。通过本发明所述方法获取的受保护数据，具有获取效率高、获取数据准确和可批量获取等特点，可以用于为舆情分析和数据挖掘提供了有效的数据支撑，为网络大数据获取方法提出了一种新思路，同时为商业推广、精准营销以及市场分析等提供了有价值的信息。具有重要的理论意义和广泛的应用价值。
搜索关键词：	一种基于 ocr 技术网络保护指数数据获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于OCR技术的网络受保护指数数据的获取方法，其特征在于，具体步骤包括：(1)目标数据网站登录；(2)目标数据定位与获取：利用自动化测试工具Selenium Webdriver，模拟目标数据显示之前用户在数据平台的操作；加载目标数据的图像，并利用模拟鼠标移动的方法，对目标数据的图像中曲线上的数据值进行动态加载和采集存储；(3)目标数据预处理：对目标数据的图像进行预处理；(4)目标数据识别与存储：利用改进的OCR技术进行目标数据识别与存储：a、自定义字体样本：针对识别容易失败的字符及非常用的字体，扩大切分框，使切分框完全包围识别容易失败的字符及非常用的字体，且不与识别容易失败的字符及非常用的字体的像素重合，识别容易失败的字符包括8、3、7、11；b、采用步骤a自定义的字体样本对步骤(3)预处理后的目标数据的图像中要识别的字符序列进行行或字切分，分离出单个字符；c、对单个字符提取统计特征和结构特征；d、将步骤c提取出的字符的统计特征和结构特征，与已有的特征库即字体字典进行比对，选择匹配度最高的字符进行输出；(5)对步骤(4)输出的字符进行校验。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东科技大学，未经山东科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610405523.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于OCR技术的网络受保护指数数据的获取方法有效

专利文献下载