[发明专利]文本数据处理方法、装置、电子设备及计算机可读介质有效
申请号: | 201811330288.3 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109493977B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 焦增涛 | 申请(专利权)人: | 天津新开心生活科技有限公司;天津开心生活科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/295;G06F40/289 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 300467 天津市滨海新区天津生态城国*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 电子设备 计算机 可读 介质 | ||
本公开涉及一种医学文本数据处理方法、装置、电子设备及计算机可读介质。涉及计算机信息处理领域,该方法包括:将医学文本中的文字进行分词处理,生成词向量;将所述医学文本中的文字的词性通过词性向量标注;将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。本公开涉及的医学文本数据处理方法、装置、电子设备及计算机可读介质,能够快速准确的由临床病例长文本中识别出医学术语。
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种医学文本数据处理方法、装置、电子设备及计算机可读介质。
背景技术
临床病例中许多信息是以长文本的形式记录,不利于后续的各种统计分析任务。从临床病例长文本中识别其中有价值的医学术语,是临床病例分析的一项重要任务。
现有技术的技术中,可通过如下方式识别医学病例中的医学术语:
1、通过使用预定义词表,进行字符匹配的方式从长文本中召回医学实体。这种方法依赖于人工定制词表,费时费力,且无法保证词表的覆盖;而且直接字符匹配的方法,会引入各种歧义,如在有些上下位场景下“鼻出血”是诊断,某些场景下是“症状”。
2、通过上下文规则,满足某种特定模式,使用模板召回医学术语实体。这种方法的效果依赖于模板的定制,手工难度高,且文本覆盖无法保证。
3、使用序列标注统计模型,预先标注一批包含实体信息的语料。这种方法统计模型主要使用字面特征,表达能力有限,要达到目标效果,需要的语料规模较大;而且医学术语是知识积累比较丰富的领域,这类方法无法充分利用领域知识。
因此,需要一种新的医学文本数据处理方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种医学文本数据处理方法、装置、电子设备及计算机可读介质,能够快速准确的由临床病例长文本中识别出医学术语。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种医学文本数据处理方法,该方法包括:将医学文本中的文字进行分词处理,生成词向量;将所述医学文本中的文字的词性通过词性向量标注;将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
在本公开的一种示例性实施例中,还包括:基于临床电子病历通过数据挖掘方式确定规则模板。
在本公开的一种示例性实施例中,基于临床电子病历通过数据挖掘方式确定规则模板包括:通过临床电子病历通过频繁项挖掘生成第一模板;将所述第一模板进行去重处理;计算去重处理后的第一模板的先验分布,以根据所述先验分布确定规则模板。
在本公开的一种示例性实施例中,将医学文本中的文字进行分词处理,生成词向量包括:医学文本中的文字进行分词处理,生成多个分词词汇;以及将每个分词词汇用Word2vec向量进行表示,生成词向量。
在本公开的一种示例性实施例中,将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果包括:将所述词向量和所述词性向量进行拼接及标准化处理,生成第一输入向量;以及将所述第一输入向量输入到双向深度学习模型中,以获取第一结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津新开心生活科技有限公司;天津开心生活科技有限公司,未经天津新开心生活科技有限公司;天津开心生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811330288.3/2.html,转载请声明来源钻瓜专利网。