[发明专利]一种基于机器学习的中医术语命名实体识别的方法在审

申请号：	202110370263.1	申请日：	2021-04-07
公开（公告）号：	CN113011190A	公开（公告）日：	2021-06-22
发明（设计）人：	周璨	申请（专利权）人：	桂林电子科技大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习中医术语命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习的中医术语命名实体识别的方法，将获得的数据中相同意义但不同表达方式的术语实体进行统一规范化处理；收集数据标准化后的表达方式，并制作自定义分词词典；将得到的词典加入工具分词标准，使通过工具分隔出的词语是正确无误的；对分隔出的词语实体进行标记；将标记好的词语实体输入word2vec模型中进行预训练，从文字形式转换为向量矩阵；将输出的向量矩阵输入带有特殊机制的Bi‑LSTM模型，输出带有上下文关系权重的信息矩阵；将输出的信息矩阵输入CRF条件随机场，将标记信息有序输出；不断重复，直到得出最精确的结果。该方法提高了对中医术语命名实体抽取的准确度。

技术领域

本发明涉及机器学习、深度学习方面的算法应用，以及相关的中医术语处理的方式，具体是一种基于机器学习的中医术语命名实体识别的方法。

背景技术

随着医学信息化的进程不断向前推进，机器学习与人工智能技术不断发展，愈来愈多的学者将机器学习的方法与医学相结合，使得医学信息、知识更加规范化，医疗技术手段更加智能化。中医古籍既是中华医学技术的历史记载，也是中国古文化向现代流传的优良载体，因此，将古代中华医学文字作品实现信息化，数据化，规范化是非常有必要的。将命名实体抽取技术融合进传统医学古籍研究，可以很多使费时费力的工作变得更加轻便快捷。

发明内容

本发明的目的在于克服现有技术的不足，而提供一种基于机器学习的中医术语命名实体识别的方法，该方法通过变种长短时记忆神经网络与特殊标注方法相结合，提高对中医术语命名实体抽取的准确度，以获得文本集中更准确的命名实体信息。

实现本发明目的的技术方案是：

一种基于机器学习的中医术语命名实体识别的方法，包括如下步骤：

1)对目标数据集的预处理

1-1)将获得的数据中相同意义但不同表达方式的术语实体进行统一规范化处理；

1-2)收集步骤1-1)数据标准化后的表达方式，并制作自定义分词词典；

1-3)将步骤1-2)得到的词典加入工具分词标准，使通过工具分隔出的词语是正确无误的；

2)对实体做标签标记

2-1)对步骤1-3)分隔出的词语实体进行标记；

2-2)将步骤2-1)标记好的词语实体输入word2vec模型中进行预训练，从文字形式转换为向量矩阵；

3)训练中医术语命名实体识别模型