[发明专利]基于NLP的药品名片自动提取方法在审
申请号: | 202110325242.8 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112926331A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 许晋阳;吴志荣;马长寿 | 申请(专利权)人: | 厦门精配软件工程有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G06F16/215 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 361012 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nlp 药品 名片 自动 提取 方法 | ||
本发明公开了一种基于NLP的药品名片自动提取方法,包括:对药品说明书进行预处理,构造训练集、验证集和测试集;加载训练集和验证集,进行数据封装和数据读取;加载BERT模型的配置数据和模型特征进行目标模型的参数初始化过程,构建BERT‑BILSTM‑CRF模型,训练BERT‑BILSTM‑CRF模型;利用训练好的BERT‑BILSTM‑CRF模型,加载测试集,对测试集数据预测输出药品名片字段内容。本发明能有效提高提取效率和准确率。
技术领域
本发明涉及数据提取技术领域,尤其涉及基于NLP(自然语言处理)的药品名片自动提取方法。
背景技术
药品说明书是载明药品重要信息的法定文件,是选用药品的法定指南,是药品的使用规范和药品信息的基本来源,是医生、药师、护师和病人治疗用药时的科学依据,最具医疗权威和法律效应,且药品说明书包含药品的安全性和有效性等基本科学信息。药品名片则是以药品说明书为底层数据库提取的药品知识名片,是认识药品最快有效的方法。
随着国家对互联网科技的重视,医院的药品维护系统已进入智能时代,在医院内部积攒了海量的药品说明书。这些药品说明书中包含了药品的成份与性状,用法用量,禁忌,接种对象、药理作用、适应症和注意事项等项内容。药品名片的构建维护显得至关重要。
近年来深度学习发展迅速,在语音识别、图像处理、自然语言处理等领域都取得了巨大的成就。考虑现有的药品名片维护方法主要是依赖于药师对专业认识的认知来对药品说明进行字段识别,手动填写药品名片内容,其维护效率低,且耗时耗力,同时药品维护方法还有基于规则的方法,也需要消耗大量人力成本,且规则本身难以设计,需要大量人力根据药品说明书构建药品名片,药品名片维护对于人力开销巨大。
发明内容
本发明的目的在于提供一种基于NLP(自然语言处理)的药品名片自动提取方法,有效提高提取效率和准确率。
实现上述目的的技术方案是:
一种基于NLP的药品名片自动提取方法,包括:
步骤S1,对药品说明书进行预处理,构造训练集、验证集和测试集;
步骤S2,加载训练集和验证集,进行数据封装和数据读取;
步骤S3,加载BERT(Bidirectional Encoder Representations fromTransformers,是一种预训练语言表示的新方法)模型的配置数据和模型特征进行目标模型的参数初始化过程,构建BERT-BILSTM(双向长短时记忆)-CRF(条件随机场)模型,训练BERT-BILSTM-CRF模型;
步骤S4,利用训练好的BERT-BILSTM-CRF模型,加载测试集,对测试集数据预测输出药品名片字段内容。
优选的,所述步骤S1包括:
将药品说明书中内容按关键字分块存储于各个文本;
将所有同关键字的文本合并,构建数据集;
根据BIO表示法对数据集标注数据,得到训练集、验证集和测试集;
对训练集、验证集和测试集进行数据清洗。
优选的,所述的关键字包括但不限于:药品名称、适应症、用法用量、药理作用、不良反应、注意事项和禁忌。
优选的,所述步骤S2包括:
S21、加载训练集和验证集,得到数据的输入样本,即样本、样本编码和标签;
S22、构造一个评估控制器;
S23、将所有输入样本封装成为“tf_record格式”数据,作为模型数据输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门精配软件工程有限公司,未经厦门精配软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110325242.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能木工刨床
- 下一篇:一种催化有机胺盐酸盐热解制氯化氢的方法