[发明专利]基于深度学习的中医药临床文献数据结构化方法及装置在审
申请号: | 202111349067.2 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114139610A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 雷蕾;李海燕;杨乐;刘华云;李小阳;王晰 | 申请(专利权)人: | 中国中医科学院中医药信息研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100700 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 中医药 临床 文献 数据结构 方法 装置 | ||
1.一种基于深度学习的中医药临床文献数据结构化方法,其特征在于,所述方法包括:
S1、获取待处理文献;
S2、将所述待处理文献输入到预先构建好的文献数据结构化模型;
S3、基于所述待处理文献以及所述文献数据结构化模型,得到结构化文本。
2.根据权利要求1所述的方法,其特征在于,所述S2中的所述文献数据结构化模型的构建过程包括:
S21、获取中医药临床文献样本数据集,并对所述样本数据集进行预处理;
S22、对所述预处理后的样本数据集进行数据标注,根据得到的标注数据得到正则池以及标注集,将所述标注集分为训练集、验证集、测试集;
S23、构建基于自注意力机制Transformer的神经网络模型,根据所述训练集、验证集对所述神经网络模型进行命名实体识别训练,得到文献数据结构化模型;
S24、将所述测试集输入到所述文献数据结构化模型,得到预测的目标点,根据所述正则池提取所述预测的目标点所在的一句或多句话,得到预测的结构化文本;
S25、将所述预测的结构化文本进行人工校对,若人工校对结果不一致,则转去执行S21;若人工校对结果一致,则输出所述文献数据结构化模型。
3.根据权利要求2所述的方法,其特征在于,所述S21中的对所述样本数据集进行预处理包括:
将所述样本数据集中的样本数据进行拆分,将拆分后的样本数据中的关键词、日期、抬头、编号信息删除。
4.根据权利要求2所述的方法,其特征在于,所述S22中的对所述预处理后的样本数据集进行数据标注包括:
根据所述预处理后的样本数据集的内容,设定标签及排序,所述标签的内容为需进行结构化内容的描述;
根据所述标签对所述预处理后的样本数据集的内容进行标注,并将标注的内容和相应的标签进行关联。
5.根据权利要求2所述的方法,其特征在于,所述S22中的根据得到的标注数据得到正则池包括:
提取所述标注数据所在的句子,在所述句子中去掉所述标注数据,动态生成正则提取句式,将所述正则提取句式保存到正则池。
6.根据权利要求2所述的方法,其特征在于,所述S22中的根据得到的标注数据得到标注集包括:
对所述标注数据采用BIO标注法进行序列标注,得到标注集。
7.一种基于深度学习的中医药临床文献数据结构化装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文献;
输入模块,用于将所述待处理文献输入到预先构建好的文献数据结构化模型;
输出模块,用于基于所述待处理文献以及所述文献数据结构化模型,得到结构化文本。
8.根据权利要求7所述的装置,其特征在于,所述文献数据结构化模型的构建过程包括:
S21、获取中医药临床文献样本数据集,并对所述样本数据集进行预处理;
S22、对所述预处理后的样本数据集进行数据标注,根据得到的标注数据得到正则池以及标注集,将所述标注集分为训练集、验证集、测试集;
S23、构建基于自注意力机制Transformer的神经网络模型,根据所述训练集、验证集对所述神经网络模型进行命名实体识别训练,得到文献数据结构化模型;
S24、将所述测试集输入到所述文献数据结构化模型,得到预测的目标点,根据所述正则池提取所述预测的目标点所在的一句或多句话,得到预测的结构化文本;
S25、将所述预测的结构化文本进行人工校对,若人工校对结果不一致,则转去执行S21;若人工校对结果一致,则输出所述文献数据结构化模型。
9.根据权利要求7所述的装置,其特征在于,所述S21中的对所述样本数据集进行预处理包括:
将所述样本数据集中的样本数据进行拆分,将拆分后的样本数据中的关键词、日期、抬头、编号信息删除。
10.根据权利要求7所述的装置,其特征在于,对所述预处理后的样本数据集进行数据标注包括:
根据所述预处理后的样本数据集的内容,设定标签及排序,所述标签的内容为需进行结构化内容的描述;根据所述标签对所述预处理后的样本数据集的内容进行标注,并将标注的内容和相应的标签进行关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国中医科学院中医药信息研究所,未经中国中医科学院中医药信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111349067.2/1.html,转载请声明来源钻瓜专利网。