[发明专利]疾病筛查文本分类方法、计算机设备和可读存储介质有效
申请号: | 201910654194.X | 申请日: | 2019-07-19 |
公开(公告)号: | CN110472049B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 徐小栋;李巍豪;梁欣然 | 申请(专利权)人: | 上海联影智能医疗科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G16H50/70 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 朱五云 |
地址: | 200232 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病 文本 分类 方法 计算机 设备 可读 存储 介质 | ||
1.一种疾病筛查文本分类方法,其特征在于,包括:
获取待分类的疾病筛查文本,并对所述疾病筛查文本进行序列化处理,利用对多个疾病筛查训练样本中的分词进行所述序列化处理所构建的语料库,得到所述疾病筛查文本中每个分词的标识对应的独热向量,其中,所述疾病筛查文本中所述语料库中未包含的分词用第一标识表示,所述每个分词对应的标识是将分词列表与所述语料库匹配得到的标识,所述分词列表根据所述疾病筛查文本得到;
将所述疾病筛查文本中每个分词对应的独热向量输入词嵌入网络,得到每个分词对应的特征向量;
将所述疾病筛查文本中属于同一短句的各分词对应的特征向量垂直拼接,得到所述疾病筛查文本中各短句的特征矩阵;
将所述疾病筛查文本中各短句的特征矩阵输入文本分类网络,得到所述各短句的分类结果,其中,所述分类结果包括结节种类、结节所在位置中的至少一种,所述各短句的特征矩阵的长度不小于最小特征矩阵长度;若所述分词列表的长度小于所述最小特征矩阵长度,则使用第二标识填充至所述分词列表的末尾,以使所述分词列表的长度不小于所述最小特征矩阵长度;
对所述各短句的分类结果做并集,得到所述疾病筛查文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述疾病筛查文本为肺结节筛查文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述疾病筛查文本进行序列化处理,得到所述疾病筛查文本中每个分词对应的独热向量,包括:
对所述疾病筛查文本中的文本数据进行分句处理,得到多个短句;
对所述多个短句进行分词处理,得到所述多个短句的分词列表;
将所述分词列表与预设的语料库进行匹配,得到每个分词对应的标识,其中,所述语料库包含不同分词与各个标识之间的映射关系;
将所述每个分词对应的标识转化为独热向量,得到所述疾病筛查文本中每个分词对应的独热向量。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于疾病筛查训练样本对预设的初始词嵌入网络进行训练,得到训练后的词嵌入网络;
基于所述疾病筛查训练样本及所述训练后的词嵌入网络,对预设的初始文本分类网络进行训练,得到训练后的文本分类网络。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取多个所述疾病筛查文本的分类结果,将所述疾病筛查文本的分类结果进行统计,得到统计结果;
根据所述统计结果,对所述训练后的文本分类网络再次进行训练,得到优化的文本分类网络。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述疾病筛查文本的分类结果与所述疾病筛查文本对应的医学影像,对疾病筛查模型进行更新。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海联影智能医疗科技有限公司,未经上海联影智能医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910654194.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助判决方法、装置及终端设备
- 下一篇:一种团伙聚类方法和装置