[发明专利]基于TextCNN的医疗文本特征提取方法及装置在审
申请号: | 202111294785.4 | 申请日: | 2021-11-03 |
公开(公告)号: | CN114020910A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 张萌;周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 textcnn 医疗 文本 特征 提取 方法 装置 | ||
本公开提供一种基于TextCNN的医疗文本特征提取方法,其特征在于,包括:将医疗文本转化为向量;将医疗文本转化的向量输入TextCNN输入层,经TextCNN输入层处理后输出至TextCNN卷积层;TextCNN卷积层对输入层的输出结果进行卷积操作,得到文本特征,并将文本特征输出至池化层;以及TextCNN池化层提取文本特征中的最大值,以获得医疗文本特征。本公开还提供一种基于TextCNN的医疗文本特征提取装置、电子设备以及可读存储介质。
技术领域
本公开涉及一种基于TextCNN的医疗文本特征提取方法、装置、电子设备以及可读存储介质。
背景技术
文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,一是医疗领域专业性较强,含有大量的医学专业名称,二是医疗领域中的文本存在类别不均衡的问题,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。而文本特征特征提取会影响文本分类效果,医疗文本由于其领域特殊性,医疗文本的特征提取同样会影响医疗文本分类效果。
发明内容
为了解决上述技术问题中的至少一个,本公开提供一种基于TextCNN的医疗文本特征提取方法、装置、电子设备及可读存储介质。
根据本公开的一个方面,提供一种基于TextCNN的医疗文本特征提取方法,包括:
将医疗文本转化为向量;
将医疗文本转化的向量输入TextCNN输入层,经TextCNN输入层处理后输出至TextCNN卷积层;
TextCNN卷积层对输入层的输出结果进行卷积操作,得到文本特征,并将文本特征输出至池化层;以及,
TextCNN池化层提取文本特征中的最大值,以获得医疗文本特征。
根据本公开至少一个实施方式的基于TextCNN的医疗文本特征提取方法,将医疗文本转化为向量,包括:
将包含n个字的文本拆分为n个字;
对于各个字,用k维向量表示,其中,k表示大于1的自然数;以及,
将表示各个字的k维向量表示拼接,拼接后的向量为表示文本的向量,所述表示文本的向量为n*k维矩阵。
根据本公开至少一个实施方式的基于TextCNN的医疗文本特征提取方法,所述卷积层的卷积核为多个一维卷积核。
根据本公开至少一个实施方式的基于TextCNN的医疗文本特征提取方法,所述卷积层的卷积操作的公式为ci=f(w·xi:i+h-1+b)其中Ci表示卷积后的特征矩阵,f为非线性函数,为卷积核,b为偏置项,Xi:i+h-1为卷积层输出特征。
根据本公开的又一个方面,提供一种医疗文本特征提取装置,包括:
文本向量转化模块,将医疗文本转化为向量;
卷积模块,将医疗文本转化的向量输入TextCNN输入层,经TextCNN输入层处理后输出至TextCNN卷积层;
池化模块,TextCNN卷积层对输入层的输出结果进行卷积操作,得到文本特征,并将文本特征输出至池化层;以及,
最大值提取模块,TextCNN池化层提取文本特征中的最大值。
根据本公开至少一个实施方式的医疗文本特征提取装置,将医疗文本转化为向量,包括:
将包含n个字的文本拆分为n个字;
对于各个字,用k维向量表示,其中,k表示大于1的自然数;以及,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111294785.4/2.html,转载请声明来源钻瓜专利网。