[发明专利]基于NLP的药品名片自动提取方法在审
申请号: | 202110325242.8 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112926331A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 许晋阳;吴志荣;马长寿 | 申请(专利权)人: | 厦门精配软件工程有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G06F16/215 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 倪继祖 |
地址: | 361012 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nlp 药品 名片 自动 提取 方法 | ||
1.一种基于NLP的药品名片自动提取方法,其特征在于,包括:
步骤S1,对药品说明书进行预处理,构造训练集、验证集和测试集;
步骤S2,加载训练集和验证集,进行数据封装和数据读取;
步骤S3,加载BERT模型的配置数据和模型特征进行目标模型的参数初始化过程,构建BERT-BILSTM-CRF模型,训练BERT-BILSTM-CRF模型;
步骤S4,利用训练好的BERT-BILSTM-CRF模型,加载测试集,对测试集数据预测输出药品名片字段内容。
2.根据权利要求1所述的基于NLP的药品名片自动提取方法,其特征在于,所述步骤S1包括:
将药品说明书中内容按关键字分块存储于各个文本;
将所有同关键字的文本合并,构建数据集;
根据BIO表示法对数据集标注数据,得到训练集、验证集和测试集;
对训练集、验证集和测试集进行数据清洗。
3.根据权利要求2所述的基于NLP的药品名片自动提取方法,其特征在于,所述的关键字包括但不限于:药品名称、适应症、用法用量、药理作用、不良反应、注意事项和禁忌。
4.根据权利要求1所述的基于NLP的药品名片自动提取方法,其特征在于,所述步骤S2包括:
S21、加载训练集和验证集,得到数据的输入样本,即样本、样本编码和标签;
S22、构造一个评估控制器;
S23、将所有输入样本封装成为“tf_record格式”数据,作为模型数据输入;
S24、读取“tf_record格式”数据,组成批数据。
5.根据权利要求4所述的基于NLP的药品名片自动提取方法,其特征在于,所述S23中,建立标签和编码的映射词典,并保存该词典,对数据进行分词,进行序列截断,长度为最大序列长度-2,并在序列首尾加上分隔符CLS和SEP符号,结构化到数据的特性集对象中。
6.根据权利要求1所述的基于NLP的药品名片自动提取方法,其特征在于,所述步骤S3包括:
S31、构建模型,加载BERT模型的配置数据和模型特征,获取对应字的字向量;
S32、加载BILSTM-CRF模型对象,构造BERT-BILSTM-CRF模型;
S33、用评估控制器对训练集进行训练。
7.根据权利要求5所述的基于NLP的药品名片自动提取方法,其特征在于,所述步骤S4包括:
S41、BERT-BILSTM-CRF模型参数,恢复模型;并加载标签和编码的映射词典;
S42、将测试集文本数据进行分词,并将字转化为字向量,将标签转化为对应编码,然后结构化到数据的特性集对象中;
S43、取得每个文本的输入样本中字的编码、输入掩码、段编码、标签的编码,并根据输入样本中字的编码、输入掩码运行会话获取当前预测的标签编码结果;
S44、根据加载的标签和编码映射词典将编码形式的结果转化为真实序列标签结果;
S45、根据真实序列标签结果和输入序列结合,获取标注结果,输出提取的药品名片字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门精配软件工程有限公司,未经厦门精配软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110325242.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能木工刨床
- 下一篇:一种催化有机胺盐酸盐热解制氯化氢的方法