[发明专利]一种电子病历文本摘要抽取方法有效
申请号: | 202110010116.3 | 申请日: | 2021-01-04 |
公开(公告)号: | CN112732900B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 张述睿;吴军;樊昭磊;桑波;李福友 | 申请(专利权)人: | 山东众阳健康科技集团有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06F16/31;G06K9/62;G16H10/60 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250001 山东省济南市市辖区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 病历 文本 摘要 抽取 方法 | ||
1.一种电子病历文本摘要抽取方法,其特征在于,包括如下步骤:
a)获取整篇电子病历的文本内容,使用D表示一篇电子病历中除出院病历以外的文本内容,D∈{di=1,di=2,...,di=|D|},di为D中的一句话,|D|为D的总句数,使用S表示一篇电子病历出院病历,S∈{sj=1,sj=2,...,sj=|S|},sj为S中的一句话,|S|为S的总句数;
b)使用医学教科书语料训练BERT语言模型,训练完成后通过公式使用该模型获取电子病历文本中di的向量表达式中BERT(di)[CLS]为使用BERT模型对di进行建模并获取向量表达,得到向量化表达矩阵
c)通过公式计算D中句子的相似度邻接矩阵A,h为BERT模型的维度,l为h所在的维度的索引,softmax(·)为softmax函数,T为向量或矩阵转置,初始化一个句子权重向量Q,其维度为句子权重向量Q中的所有初始值均为计算得到D中每个句子的得分
d)对得分内的值按照从大到小进行排序,排序后取前|C|个最大的值对应的句子索引作为抽取式摘要的候选集并从向量化表达矩阵取出这些句子索引所对应的向量,其中在模型训练阶段|C|=|S|×2,0<|C|<|D|,|C|为正整数,C为候选集,C={ci=1,ci=2,...,ci=|C|},ci为候选集中的一个句子的向量表达;
e)枚举所有从候选集C中取出|S|个向量的所有组合,通过公式计算所有组合的数量|G|,!为阶乘计算,G={gn=1,gn=2,...,gn=|G|},gn为一种句向量的组合;
f)对BERT语言模型进行训练,定义损失函数为L,使用梯度下降法将L最小化,直至其收敛,得到BERT模型的参数,获取可以自动抽取式摘要的模型参数;
g)使用公式计算得到最佳的句子组合式中gn为最大的句子组合。
2.根据权利要求1所述的电子病历文本摘要抽取方法,其特征在于,步骤b)中BERT建模的步骤为:
b-1)将文本di按照字典中的索引将di中的每个文字转换成字典中的一个索引数字,完成di的索引化;
b-2)将BERT语言模型中的[CLS]和[SEP]添加到索引化的di中,将添加后的索引化的di输入到BERT模型中;
b-3)通过公式得到电子病历文本中di的向量表达,该向量表达的维度为为实数空间。
3.根据权利要求1所述的电子病历文本摘要抽取方法,其特征在于,步骤c)中计算D中每个句子的得分的步骤为:
c-1)通过公式计算得到D中每个句子的得分
c-2)用的值替换Q中的值后重复步骤c-1)直到与Q相等。
4.根据权利要求1所述的电子病历文本摘要抽取方法,其特征在于:步骤f)中,通过公式计算损失函数为L,式中max函数表示求最大元素,为S的向量表达,的维度为BERT(gn)[CLS]为gn的向量表达,λ为超参数。
5.根据权利要求4所述的电子病历文本摘要抽取方法,其特征在于:λ=0.05。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东众阳健康科技集团有限公司,未经山东众阳健康科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110010116.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便携式炮膛涂油装置
- 下一篇:一种硅藻土生态板及其制造方法