[发明专利]预训练模型获取、疾病实体标注方法、装置及存储介质在审
申请号: | 202010936637.7 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112016319A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 朱威;何义龙 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/169;G06N20/00 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 姚章国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 模型 获取 疾病 实体 标注 方法 装置 存储 介质 | ||
1.一种基于词汇表的预训练模型获取方法,其特征在于,包括:
获取第一中文语料,并对所述第一中文语料进行分词处理,得到初步分词结果;
对所述初步分词结果的非常用词进行词切分,以获取目标分词结果;
根据所述目标分词结果创建预训练模型的中文词汇表;
利用所述中文词汇表对所述预训练模型进行预训练,以获取目标预训练模型。
2.如权利要求1所述的预训练模型获取方法,其特征在于,所述对所述第一中文语料进行分词处理,得到初步分词结果,包括:
获取预设前缀词典;
基于所述预设前缀词典对所述第一中文语料的各个句子进行扫描,以获取所述各个句子中每个汉字的所有可能词切分方式;
根据所述各个句子中每个汉字的所有可能词切分方式构建目标有向无环图;
对所述目标有向无环图查找最大词频概率路径,并将所述最大词频概率路径对应的词切分组合作为所述初步分词结果。
3.如权利要求1所述的预训练模型获取方法,其特征在于,所述对所述初步分词结果的非常用词进行词切分,以获取目标分词结果,包括:
获取预设BPE词汇表,所述预设BPE词汇表为根据BPE算法所获取的分词词汇表;
将所述初步分词结果的分词与所述预设BPE词汇表的分词进行匹配,以确定出所述初步分词结果中不存在于所述预设BPE词汇表的分词;
将所述初步分词结果中不存在于所述预设BPE词汇表的分词进行再拆分,以获取所述目标分词结果。
4.如权利要求3所述的预训练模型获取方法,其特征在于,所述预设BPE词汇表通过如下方式获取:
a、获取第二中文语料;
b、对所述第二中文语料的每个文字和标点符号进行拆分,以获取多个拆分单元;
c、将相邻的所述拆分单元作为相邻单元对,并统计所有所述相邻单元对的频数;
d、选择所述频数最高的所述相邻单元对合并成新的拆分单元;
e、重复所述c-d步骤直至满足预设条件;
f、根据满足所述预设条件的剩余所述拆分单元构建所述预设BPE词汇表。
5.如权利要求4所述的预训练模型获取方法,其特征在于,所述预设件包括所述剩余拆分单元的数量满足预设数量。
6.如权利要求1-5任一项所述的预训练模型获取方法,其特征在于,所述利用所述中文词汇表对所述预训练模型进行预训练,以获取目标预训练模型,包括:
依次获取所述中文词汇表中分词对应的分词标记向量;
获取所述中文词汇表中分词对应的分词位置向量;
对所述中文词汇表中的部分分词进行掩码处理,以获取分词掩码向量;
将所述中文词汇表中所述分词标记向量、分词位置向量和分词掩码向量进行拼接,以获取模型输入训练向量;
按照目标预测任务将所述获取模型输入训练向量输入所述预训练模型进行预训练,以获取所述目标预训练模型,其中,所述目标预测任务包括对被掩码的所述分词的汉字数量进行预测。
7.一种基于预训练模型的疾病实体标注方法,其特征在于,包括:
获取经过人工标注疾病实体的实体标注文本训练数据;
利用所述实体标注文本训练数据对目标预训练模型进行微调,以获取疾病实体标注模型,所述目标预训练模型为经过如权利要求1-6任一项所述预训练模型获取方法所获取的预训练模型;
在需对待识别医用文本进行疾病实体标注时,将所述待识别医用文本输入至所述疾病实体标注模型中,以获取所述疾病实体标注模型输出的疾病实体标注结果。
8.一种基于词汇表的预训练模型获取装置,其特征在于,包括:
第一分词模块,用于获取第一中文语料,并对所述第一中文语料进行分词处理,得到初步分词结果;
第二分词模块,用于对所述初步分词结果的非常用词进行词切分,以获取目标分词结果;
创建模块,用于根据所述目标分词结果创建预训练模型的中文训练词汇表;
预训练模块,用于利用所述中文词汇表对所述预训练模型进行预训练,以获取目标预训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010936637.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种观赏用智能沙盘
- 下一篇:诺丽果均一多糖提取分离方法和应用