[发明专利]基于中医古籍文献的中医命名实体识别方法及识别系统有效
申请号: | 201910367376.9 | 申请日: | 2019-05-05 |
公开(公告)号: | CN110134953B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 张德政;杨石兵;贾麒;谢永红;夏超;栗辉 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/951 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中医 古籍 文献 命名 实体 识别 方法 系统 | ||
1.一种基于中医古籍文献的中医命名实体识别方法,其特征在于,所述方法包括如下步骤:
步骤S1,获取待处理的中医古籍医案语料;
步骤S2,对步骤S1获取的所述待处理的中医古籍医案语料进行数据清理;
步骤S3,基于步骤S2得到的中医古籍医案语料,进行面向中医古籍医案语料的语言模型预训练;具体包括:
步骤S31,下载语言模型预训练中文语言训练的源码;
步骤S32,人工整理中医古籍医案涉及到的字表,与源码中的中文字表对比,切分出中医领域的生僻字表;
步骤S33,以生僻字表中的字符代替源码中使用频率低的字符的方式,将所述生僻字表与中文字表合并,并保证中文字表的长度不变;
步骤S34,对步骤S2清理后的中医古籍医案语料中的段落进行分段,预设段落长度阈值和/或段落包含句子数量阈值,将大于所述段落长度阈值和/或段落包含句子数量阈值的段落文本,作为语言训练模型的训练语料;
步骤S35,利用按字符分隔的分词规则替换源码中的分词方法,基于中文语言训练模型,以所下载的语言模型预训练方法在所述步骤S34中的语言训练模型的训练语料上进行面向中医古籍医案的语言模型预训练;
步骤S4,基于步骤S2所获得的清理后的中医古籍医案语料,对所述语料进行序列标注,形成后续模型的训练集;所述序列标注,具体包括以下步骤:
步骤S41,选取实体识别类型;
步骤S42,约定标注规则;当几种症状并列出现,并无标点符号分隔时,如果症状间属于并列关系则分开标注,如果症状间属于递进关系则将其标注成一个症状;当几种病位并列出现,但病位间有标点符号分隔,则仅保留最后一个病位;
步骤S43,从清理后的语料中随机选取预定规模的句子集合,按字符分隔写入待标注文件,句子间以一空行分隔;
步骤S44,基于选取的实体识别类型及约定的标注规则,对选取的预定规模的句子集合进行人工标注;
步骤S5,基于步骤S4得到的序列标注的模型训练集,将步骤S3的语言模型作为编码层,将预设的神经网络结构作为解码层,训练相应的序列标注模型;具体包括如下步骤:
步骤S51,划分训练集、验证集、测试集;
步骤S52,训练序列标注模型,形成模型的自动标注结果;
步骤S53,将模型的自动标注结果与人工标注结果对比,将不一致的标注序列过滤出来,然后人工对过滤出来的标注结果进行校对,最后将校对后的结果写回训练集;
步骤S54,判断是否满足标注要求,若满足,则输出最终的标注结果;若不满足,则返回步骤S51;
步骤S6,基于步骤S5训练得到的序列标注模型,对中医古籍医案进行实体识别。
2.根据权利要求1所述的中医命名实体识别方法,其特征在于,所述步骤S1获取中医古籍医案语料,具体包括以下步骤:
步骤S11,利用光学字符识别对已有的纸质版中医古籍医案书籍进行扫描识别,形成电子文本语料;
步骤S12,利用开源网络爬虫从网络上抓取没有纸质版书籍的中医古籍医案语料;
步骤S13,将步骤S11和步骤S12获取到的语料文本进行对比、合并,最终形成统一的待处理的中医古籍医案语料。
3.根据权利要求1所述的中医命名实体识别方法,其特征在于,所述步骤S2对待处理的中医古籍医案语料进行数据清理,具体包括以下步骤:
步骤S21,校正错别字;
步骤S22,过滤无关语句。
4.根据权利要求1所述的中医命名实体识别方法,其特征在于,步骤S3,所述语言模型预训练,采用Google的语言模型预训练方法bert。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910367376.9/1.html,转载请声明来源钻瓜专利网。