[发明专利]一种基于分词技术的病历关键信息提取模型在审

专利信息
申请号: 201910310758.8 申请日: 2019-04-18
公开(公告)号: CN109977422A 公开(公告)日: 2019-07-05
发明(设计)人: 庞善臣;丁桐;翟雪;王淑玉;李艳青 申请(专利权)人: 中国石油大学(华东)
主分类号: G06F17/27 分类号: G06F17/27;G06F16/33;G16H70/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 266580 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 病历 分词 关键信息提取 关键信息 句子 自然语言处理技术 预处理 空格 自然语言处理 人工智能 分词处理 检索技术 决策基础 模型提供 匹配技术 文本分词 文本信息 文本形式 学科交叉 智能决策 专家系统 字符匹配 智能化 疾病 比对 词库 图谱 概率 医疗
【说明书】:

本发明专利名为:一种基于分词技术的病历关键信息提取模型。所属的技术领域为人工智能自然语言处理与医疗学科交叉,通过将病历的文本信息预处理,处理成连续无空格的文本形式,然后对病历进行分词处理。利用字符匹配技术,对病历分词后的结果进行比对,然后寻找到需要的关键词,从而确定关键词所在的句子。定位到词所在的句子后,寻找关键词后的第一个词;如果是描述性的关键信息,则根据词库中描述性词可能的概率来确定。本发明利用自然语言处理技术中的分词技术,检索技术,匹配技术提供一种基于分词技术的病历关键信息提取模型,能够将病历文本分词化,同时提取需要的关键信息,为疾病的专家系统,知识图谱,疾病智能决策模型提供智能化提取的关键信息作为决策基础。

技术领域

本发明涉及一种关键信息提取模型,特别涉及一种基于分词技术的病历关键信息提取模型。

背景技术

分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词是将一个汉字序列分成一个一个的单独的词。在分词的背景技术中,中文分词方法一般有以下三类:基于词典匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于词典(字符串匹配、机械分词法)匹配的分词方法是按照一定的策略将待分析的汉字串与一个机器词典进行词条匹配,若在词典中找到某个字符串,则匹配成功。其次是基于理解的分词方法,通过让计算机模拟人对句子的理解,达到识别词的效果。目前基于理解的分词方法可以用深度学习中自然语言处理的方法来实现。基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律,实现对未知文本的切分。最大熵分词方法、最大概率分词方法等。

关键信息检索,主要是基于文本及语义的相似匹配问题。两个文本之间的相似度达到一定要求后,匹配为需要检索的关键信息。基于VSM(Vector Space Model)的余弦相似度算法来评价两个文本间的相识度。余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。两个空间向量之间的夹角越小,我们就认为这两个向量越吻合。使用词袋one-hot的方式,就是形成一个词的字典集,然后将文本中的词投射到词袋中,对应的位置用出现的频次填充,没有的填充零。此外,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。

发明内容

为了能够将病历信息更大程度的应用在疾病的智能决策中,我们提出了一种基于分词技术的病历关键信息提取模型,目的是为了能够将病历中影响疾病的关键信息提取出来,从而能够更方便的服务于疾病的智能决策系统、知识图谱的构建、专家系统的构建等,。

本发明所采用的技术方案如下:

一种基于分词技术的病历关键信息提取模型,包括以下部分:

A、对病历信息进行分词处理;

B、对关键信息(词)进行检索;

C、利用近邻原理对所检索信息词前后词对比后进行信息提取。

部分A中,所述的对病历信息进行分词处理是指:将病历的文本信息预处理,处理成连续无空格的文本形式,然后对病历进行分词处理。在分词处理前,应当建立分词词库,以建立关键信息提取的标准。

部分B中,所述的对关键信息(词)进行检索是:利用字符匹配技术,对病历分词后的结果进行比对,然后寻找到需要的关键词,从而确定关键词所在的句子。关键词所在的句子的确立,是根据词的前后标点符号来的。

部分C中,所述的利用近邻原理对所检索信息词前后词对比后进行信息提取是指:通过将病历分词之后,结果就会得到很多独立的词,再通过部分B所述的检索需要的病历信息,定位到词所在的句子后,寻找关键词后的第一个词;如果关键词后为标点符号,则向前取一个词;如果是描述性的关键信息,则根据词库中描述性词可能的概率来确定。

本发明提供的技术方案带来的有益效果是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910310758.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top