[发明专利]表示病历文本向量的方法、装置及问诊系统在审
申请号: | 201911311159.4 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111180025A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 王超;张淑蕾;柴东;杨英健;范智渊;康雁 | 申请(专利权)人: | 东北大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/289;G06F40/30;G06N20/10 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 110819 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表示 病历 文本 向量 方法 装置 问诊 系统 | ||
本发明公开了一种表示病历文本向量的方法、装置及问诊系统,一种表示病历文本向量的方法,包括:获取病历文本,将所述病历文本转换成词列表;利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;分别将所述词向量转换为文本向量;将所有所述文本向量进行合成,得到合成文本向量;其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。以解决传统的文本向量表示方法不能够充分表达文本信息,造成分类模型不能够很好地对输入文本进行分类的问题。
技术领域
本发明涉及医学领域,具体说是一种表示病历文本向量的方法、装置及问诊系统。
背景技术
疾病分类模型的输入文本(病历文本)预处理,文字不能直接输入给模型,需要将文本转为向量的形式。但是目前病历文本向量的方法不能充分表达文本信息,这样会造成分类模型不能够很好地对输入文本进行分类。
发明内容
有鉴于此,本发明提供一种表示病历文本向量的方法、装置及问诊系统。以解决传统的文本向量表示方法不能够充分表达文本信息,造成分类模型不能够很好地对输入文本进行分类的问题。
第一方面,本发明提供了一种表示病历文本向量的方法,包括:
获取病历文本,将所述病历文本转换成词列表;
利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;
分别将所述词向量转换为文本向量;
将所有所述文本向量进行合成,得到合成文本向量;
其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。
优选地,所述将所述词向量转换为文本向量:
其中,所述为所述词列表中的所有词的词向量集合,n表示所述词列表中词的个数,(i)表示词向量模型的个数,max()表示取最大值,min()表示取最小值,mean()表示取均值,h()表示词向量转换为文本向量的操作,表示拼接。
优选地,所述至少2个预设的词向量模型通过所述病历文本进行训练而得到,然后利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量,所述预设的词向量模型的训练方法为:
根据所述病历文本得到词向量模型的训练语料;
将所述训练语料分别输入预设的向量模型,对所述预设的向量模型进行训练;
其中,对所述预设的词向量模型进行训练的病历文本的集合,包含利用至少2个预设的词向量模型分别将所述词列表中的每个词转换词向量所使用的病历文本。
优选地,所述预设的词向量模型的数量为2个,以及/或所述预设的词向量模型分别是word2vec模型和GloVe模型。
第二方面,本发明提供了一种表示病历文本向量的装置,包括:
词列表转换单元、至少2个预设的词向量模型、文本向量转换单元以及合成单元,所述词列表转换单元的输出与分别所述预设的词向量模型的输入连接,所述预设的词向量模型的输出与所述文本向量转换单元的输入连接,所述文本向量转换单元的输出与所述合成单元的输入连接;
所述词列表转换单元,用于获取病历文本,将所述病历文本转换成词列表;
所述预设的词向量模型,分别将所述词列表中的每个词转换词向量;
所述文本向量转换单元,分别将所述词向量转换为文本向量;
所述合成单元,将所有所述文本向量进行合成,得到合成文本向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911311159.4/2.html,转载请声明来源钻瓜专利网。