[发明专利]一种基于网络爬虫的药品信息库构建方法有效
申请号: | 201611187648.X | 申请日: | 2016-12-21 |
公开(公告)号: | CN106777165B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 雷方元;戴青云;赵慧民;蔡君;魏文国;罗建桢 | 申请(专利权)人: | 广东技术师范大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/22;G06F16/953 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林瑞云 |
地址: | 510620 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 爬虫 药品 信息库 构建 方法 | ||
本发明提供一种基于网络爬虫的药品信息库构建方法,该方法包括:首先在服务器后台定时抓取CFDA网站中企业信息查询页面中的药品栏目,分析抓取其子栏目的药品汇总信息,并利用网络爬虫到对应的企业网站中去抓取该药品的说明书;采用OCR模块来识别药品说明书中的生成企业,药品通用名称,批准文号以及禁忌,注意事项等;并将这些识别的内容存储到数据库中,数据库采用生产企业+药品名称+批准文号的关键字来构造。定期抓取CFDA药品监管动态,如果有新药通过审批,则到对应的企业网站抓取新药的说明书,并将相关内容识别后更新到数据库中。本发明提供一种构建采用网络爬虫构建药品信息库的方法,为药品信息的快速查询与利用提供基础支撑。
技术领域
本发明涉及药品信息数据库的构建方法,尤其是一种基于网络爬虫的药品信息库构建方法。
技术背景
药品是一种特殊商品,对质量安全有极高要求,各国都实行严格监管,以保障其有效性和安全性。药品是分为处方药和非处方药两大类。药品的种类非常复杂性,截止2016-12-19日,国家食品药品监督管理总局CFDA网站公布国产药品有164899种,国产药品的商品名称有7014种;进口药品3996种,进口药品商品名称有5190种;药品生成企业为8586家,药品经营企业为140616家,由此可见,药品的种类复杂、品种繁多。
药品查询时发现同一种药品通用名称的可能有多个厂家,如“感冒清”的生产厂家多达417家。进一步,分析发现非处方药OCT感冒清热颗粒有多达14种,价格范围从8.6元到25元不等。这些药品的治疗感冒的类别也不尽相同,例如按照中医来说,分为治疗风寒型感冒、风热型感冒和暑热型等;按照西医分为病毒性感冒和细菌性感冒。
选择合适的药品是建立在全面的药品信息数据库的基础之上,而目前尚未有类似的药品信息数据库。因此,可以采用网络爬虫来构建药品信息库,并及时更新药品数据,实现药品信息资源共享。
发明内容
针对缺乏全局的药品信息数据库的情况,本发明提供一种基于网络爬虫的药品信息库构建方法。首先在服务器后台定时抓取CFDA网站中,分析抓取其中的药品信息,并到对应的企业网站中去抓取该药品的说明书。进一步利用OCR模块来识别药品说明书的相关信息;并将识别出来的结果存储到数据库中。该方法提供了知识库的专业性,解决知识库不能够提供基于图像检索的问题。
按照本发明所提供的设计方案,一种基于网络爬虫的药品信息库构建方法,具体包含以下步骤:
步骤1.在服务器后台定时抓取CFDA网站中的企业信息查询页面中的药品栏目。
步骤2.分析并抓取药品栏目下的信息各种信息,获得药品类别的各种汇总信息,如国产药品数量、国产药品商品名数量、进口药品数量、进口药品商品名数量、药品注册补充备案情况公示数量、药品生产企业数量等。
步骤3.网络爬虫进一步到药品类别的子栏目中获取到具体信息,如在国产药品栏目中,获得各种的药品信息,并对每一种的药品名称信息、药品本位码,药品批准号及生产企业存储到数据库中。
步骤4.根据药品生产企业的信息,查找到每一个生产企业的官方网站,并从其网站的提取其生产的药品类别,并根据药品进一步获取到药品的产品说明书,将产品说明书按照命名规则保存到服务器中。
步骤5.采用微软的OCR来分析药品说明书,按照CFDA给出各种药品标准的规格来提取其中的关键词及对应的描述文字信息。
步骤6.将这些描述信息按照生产企业+药品通用名称+产品批准号为关键词存储到数据库中;将药品本位码也作为关键词存储到数据库中。
步骤7.周期抓取CFDA网站中的药品监管动态栏目中的新药信息发布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611187648.X/2.html,转载请声明来源钻瓜专利网。