[发明专利]基于深度学习的中医药临床文献数据结构化方法及装置在审

专利信息
申请号: 202111349067.2 申请日: 2021-11-15
公开(公告)号: CN114139610A 公开(公告)日: 2022-03-04
发明(设计)人: 雷蕾;李海燕;杨乐;刘华云;李小阳;王晰 申请(专利权)人: 中国中医科学院中医药信息研究所
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 北京市广友专利事务所有限责任公司 11237 代理人: 张仲波
地址: 100700 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 中医药 临床 文献 数据结构 方法 装置
【说明书】:

发明公开了一种基于深度学习的中医药临床文献数据结构化方法及装置,涉及数据处理技术领域。包括:获取待处理文献;将待处理文献输入到预先构建好的文献数据结构化模型;基于待处理文献以及文献数据结构化模型,得到结构化文本。本发明能够解决现有技术存在的抽取结果不准确、校对工作量大,并且由于抽取规则为人为主动进行预置的原因,升级过程复杂,无法利用已校对内容进行自学习,达不到越用越精确的目的的问题。

技术领域

本发明涉及数据处理技术领域,特别是指一种基于深度学习的中医药临床文献数据结构化方法及装置。

背景技术

中医药临床文献包含了丰富的文本和数字信息,其中大量行之有效的临床实践经验有待挖掘,名老中医个性化的诊治经验极需继承与总结。在中医药信息化浪潮兴起的现在,如何与严格的临床随机对照试验所获得的直接证据有机结合?如何将中医症状、体征等软指标与现代医学理化检查所得的硬指标相结合?如何从现有大量的中医药的临床研究资料中获取循证医学所需的最佳证据?因此无论是对中医药临床文献的归档、知识库建设工作,还是对诊治经验进行分析,促进新药研发,以及培养一支信息方法学研究和建设中医药数据的人才队伍方面,结构化中医药临床文献数据,都将带来极大的便利。但是由于目前自然语言处理和中医药结合并不紧密,现有技术存在一定的缺陷和不足。一是尽管部分中医药临床文献数据已经通过人工抽取或规则提取+人工校对的方式进行了简单的结构化,但是面对海量的中医药临床文献数据,以及不同的内容构成、写法、依存句法、正异名等因素,即使在耗费大量人工成本的情况下,依旧无法准确且高效的进行提取和判定,在大数据时代的背景下,不利于研究的进一步开展。二是目前对中医药临床文献进行自然语言处理和深度学习的技术较少,无法为研究院人员在中医领域探究发病规律和药物、剂量等因素的关系提供便利。

现有中医药文献数据结构化处理系统,主要由中医药文献抽词、PDF分析识别及客户端身份校验、用户自定义词表及知识图谱构建三部分组成。还存在不足之处,一方面,此方法是借助中医药词表进行抽词的,因此只能识别出词表中已经出现的词汇,不能识别未登录词,若要提高抽取准确率,则需要对词表进行新词补充,此过程耗费大量时间;另一方面,此方法需要人工制定抽取规则,加入新规则的过程较为复杂。

发明内容

本发明针对现有技术存在的抽取结果不准确、校对工作量,并且由于抽取规则为人为主动进行预置的原因,升级过程复杂,无法利用已校对内容进行自学习,达不到越用越精确的目的的问题,提出了本发明。

为解决上述技术问题,本发明提供如下技术方案:

一方面,本发明提供了一种基于深度学习的中医药临床文献数据结构化方法,该方法由电子设备实现,该方法包括:

S1、获取待处理文献。

S2、将待处理文献输入到预先构建好的文献数据结构化模型。

S3、基于待处理文献以及文献数据结构化模型,得到结构化文本。

可选地,S2中的文献数据结构化模型的构建过程包括:

S21、获取中医药临床文献样本数据集,并对样本数据集进行预处理。

S22、对预处理后的样本数据集进行数据标注,根据得到的标注数据得到正则池以及标注集,将标注集分为训练集、验证集、测试集。

S23、构建基于自注意力机制Transformer的神经网络模型,根据训练集、验证集对神经网络模型进行命名实体识别训练,得到文献数据结构化模型。

S24、将测试集输入到文献数据结构化模型,得到预测的目标点,根据正则池提取预测的目标点所在的一句或多句话,得到预测的结构化文本。

S25、将预测的结构化文本进行人工校对,若人工校对结果不一致,则转去执行S21;若人工校对结果一致,则输出文献数据结构化模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国中医科学院中医药信息研究所,未经中国中医科学院中医药信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111349067.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top