[发明专利]医学文本识别方法及装置在审
申请号: | 201910049925.8 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109829156A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 张奇 | 申请(专利权)人: | 北京惠每云科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 逯恒 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 医学 文本识别 标签 特征字 特征词确定 医疗领域 特征词 申请 词语 文本 医疗 | ||
本申请提供了医学文本识别方法及装置,涉及医疗领域。本申请提供的医学文本识别方法,采用先从医疗文本的待识别语句中提取的特征字和特征词;而后,根据特征字确定第一字特征,并根据特征词确定第一词特征;最后,将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。这种确定医学标签的方式,综合的使用了字特征和词特征来表征待识别语句的特点,使得识别模型可以更加准确的了解待识别语句的特点,从而提高了确定医学标签的精度。
技术领域
本申请涉及医疗领域,具体而言,涉及医学文本识别方法及装置。
背景技术
通过对已有的医疗数据进行分析和研究,能够对医疗技术的提高起到正面帮助。近年来,随着电子信息技术的快速发展,医疗领域所产生的电子医疗数据的数据量越来越大,从电子医疗数据中提取有效信息的难度也随之增加,进而,人们开始探讨和学习如何利用文字识别技术来提高医疗行业的改进效率。
发明内容
本申请的目的在于提供一种医学文本识别方法和装置。
第一方面,本申请实施例提供了一种医学文本识别方法,包括:
从医疗文本的待识别语句中提取的特征字和特征词;
根据特征字确定第一字特征;
根据特征词确定第一词特征;
将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,步骤根据特征字确定第一字特征包括:
获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,步骤根据特征词确定第一词特征包括:
获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,步骤从医疗文本的待识别语句中提取的特征字和特征词包括:
使用语义识别模型,对待识别语句进行语义识别,以确定待识别语句中的特征词。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述识别模型是按照如下方式训练得到的:
获取训练语句的训练特征,所述训练特征是由训练语句中训练字的第二字特征和训练词的第二词特征组成的;
将训练特征和训练语句中指定文字的医学标签输入到未训练完成的识别模型中,以对所述识别模型进行训练。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,
第二字特征是由至少两种第二字特征向量组成;
第二词特征是由至少两种第二词特征向量组成;
第二字特征向量包括以下的一种或多种向量:字标识向量、字位置向量和字的医疗领域向量;
第二词特征向量包括以下的一种或多种向量:词标识向量、词位置向量和词的医疗领域向量。
第二方面,本申请实施例还提供了一种医学文本识别装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京惠每云科技有限公司,未经北京惠每云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910049925.8/2.html,转载请声明来源钻瓜专利网。