[发明专利]一种基于BERT模型的医疗文本理解方法及系统在审

申请号：	202010977191.2	申请日：	2020-09-17
公开（公告）号：	CN112016314A	公开（公告）日：	2020-12-01
发明（设计）人：	汪秀英	申请（专利权）人：	汪秀英
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/30;G06F16/335;G16H50/70;G06N3/04
代理公司：	长沙正务联合知识产权代理事务所(普通合伙) 43252	代理人：	郑隽;吴婷
地址：	410205 湖南省长沙市高新***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 模型医疗文本理解方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种文本处理的技术领域，揭露了一种基于BERT模型的医疗文本理解方法，包括：获取医疗文本数据，利用句子过滤模型过滤掉无效医疗文本数据；根据过滤后的医疗文本数据，利用基于文本拷贝的医疗文本生成模型进行大规模医疗文本数据的生成；利用所生成的大规模医疗领域文本数据进行医疗文本实体识别模型的训练；利用所训练得到的医疗文本实体识别模型对待处理的医疗文本进行实体识别；利用基于注意力的信息抽取方法对医疗文本实体进行语义抽取，得到医疗文本实体语义特征；根据所述医疗文本实体语义特征，利用多层感知机进行医疗文本的理解。本发明还提供了一种基于BERT模型的医疗文本理解系统。本发明实现了医疗文本的理解。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种基于BERT模型的医疗文本理解方法及系统。

背景技术

随着经济水平的提高，将不可避免地使人们更加关注自身的健康状况，同时对医疗服务水平的要求也越来越高。现有的医疗服务受到资源和管理等各种因素的限制，很难满足人们日益增长的需求。智能医疗就变得越来越重要，充分利用医学文本中的知识可以加快智能医疗的进程。

目前关于医疗领域的文本理解研究较少，传统基于神经网络的命名实体识别模型需要大量的标记训练数据，然而医疗领域数据专有名词具有较强的专业性，标注成本高，导致准确的标注数据较少，缺少大规模的医疗领域文本数据集。同时由于医生书写的习惯存在较大差异目前的实体识别模型难以联系上下文对实体进行归类，并对医疗实体进行识别。

鉴于此，如何获取大规模医疗文本数据集，并构建能够有效应用于医疗领域的医疗实体识别模型，从而利用所识别出的医疗实体信息进行医疗文本理解，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于BERT模型的医疗文本理解方法，通过利用基于文本拷贝的医疗文本生成技术生成大规模医疗领域文本数据，并利用所生成的医疗领域文本数据进行医疗文本实体识别模型的训练，从而利用所训练得到的医疗文本实体识别模型对待处理的医疗文本进行实体识别；并利用基于规则的信息抽取方法对医疗文本实体进行语义抽取，根据所抽取的语义信息实现医疗文本的理解。

为实现上述目的，本发明提供的一种基于BERT模型的医疗文本理解方法，包括：

获取医疗文本数据，利用句子过滤模型过滤掉无效医疗文本数据；

根据过滤后的医疗文本数据，利用基于文本拷贝的医疗文本生成模型进行大规模医疗文本数据的生成；

利用所生成的大规模医疗领域文本数据进行医疗文本实体识别模型的训练；

利用所训练得到的医疗文本实体识别模型对待处理的医疗文本进行实体识别；

利用基于注意力的信息抽取方法对医疗文本实体进行语义抽取，得到医疗文本实体语义特征；

根据所述医疗文本实体语义特征，利用多层感知机进行医疗文本的理解。

可选地，所述利用句子过滤模型过滤掉无效医疗文本数据，包括：

所述句子过滤模型是基于BERT的自注意力机制模型；所述利用句子过滤模型进行无效医疗文本数据过滤的流程为：

1)在输入词序列前增加[CLS]标记，在输入词序列后增加[SEP]标记，将输入词序列转换为对应的Token Embedding，并计算得到每个词所对应的Position Embedding；将各个词对应的两种Embedding相加，得到输入的Embedding编码；

2)利用基于全局的注意力矩阵得到输入序列向量的注意力权重α：

α＝softmax(WT)