[发明专利]基于TextCNN的医疗文本特征提取方法及装置在审
申请号: | 202111294785.4 | 申请日: | 2021-11-03 |
公开(公告)号: | CN114020910A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 张萌;周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 textcnn 医疗 文本 特征 提取 方法 装置 | ||
1.一种基于TextCNN的医疗文本特征提取方法,其特征在于,包括:
将医疗文本转化为向量;
将医疗文本转化的向量输入TextCNN输入层,经TextCNN输入层处理后输出至TextCNN卷积层;
TextCNN卷积层对输入层的输出结果进行卷积操作,得到文本特征,并将文本特征输出至池化层;以及
TextCNN池化层提取文本特征中的最大值,以获得医疗文本特征。
2.根据权利要求1所述的基于TextCNN的医疗文本特征提取方法,其特征在于,将医疗文本转化为向量,包括:
将包含n个字的文本拆分为n个字;
对于各个字,用k维向量表示,其中,k表示大于1的自然数;以及
将表示各个字的k维向量表示拼接,拼接后的向量为表示文本的向量,所述表示文本的向量为n*k维矩阵。
3.根据权利要求1所述的基于TextCNN的医疗文本特征提取方法,其特征在于,所述卷积层的卷积核为多个一维卷积核。
4.根据权利要求1所述的基于TextCNN的医疗文本特征提取方法,其特征在于,所述卷积层的卷积操作的公式为ci=f(w·xi:i+h-1+b),其中Ci表示卷积操作后的特征矩阵,f为非线性函数,为卷积核,b为偏置项,Xi:i+h-1为卷积层输出特征。
5.一种医疗文本特征提取装置,其特征在于,包括:
文本向量转化模块,将医疗文本转化为向量;
卷积模块,将医疗文本转化的向量输入TextCNN输入层,经TextCNN输入层处理后输出至TextCNN卷积层;
池化模块,TextCNN卷积层对输入层的输出结果进行卷积操作,得到文本特征,并将文本特征输出至池化层;以及
最大值提取模块,TextCNN池化层提取文本特征中的最大值。
6.根据权利要求5所述的医疗文本特征提取装置,其特征在于,将医疗文本转化为向量,包括:
将包含n个字的文本拆分为n个字;
对于各个字,用k维向量表示,其中,k表示大于1的自然数;以及
将表示各个字的k维向量表示拼接,拼接后的向量为表示文本的向量,所述表示文本的向量为n*k维矩阵。
7.根据权利要求5所述的医疗文本特征提取装置,其特征在于,所述卷积层的卷积核为多个一维卷积核。
8.根据权利要求5所述的医疗文本特征提取装置,其特征在于,所述卷积层的卷积操作的公式为ci=f(w·xi:i+h-1+b),其中Ci表示卷积后的特征矩阵,f为非线性函数,为卷积核,b为偏置项,Xi:i+h-1为卷积层输出特征。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至4中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至4中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111294785.4/1.html,转载请声明来源钻瓜专利网。