[发明专利]一种基于词性增量迭代的在线医疗文本症状识别方法有效
申请号: | 201910490853.0 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110298036B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 黄青松;尤诚诚;余慧;刘利军;冯旭鹏 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F16/35;G06F16/951;G06N3/04;G16H80/00;G16H50/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 增量 在线 医疗 文本 症状 识别 方法 | ||
1.一种基于词性增量迭代的在线医疗文本症状识别方法,其特征在于:所述方法的具体步骤如下:
Step1、从问诊网页上爬取问诊问题,并通过人工分类得到其中骨科未知疾病类问题文本作为实验语料,其次对语料进行预处理,并生成词向量模型;
Step2、确定症状实体位置;经Step1预处理操作之后,通过识别基本症状词来确定症状实体位置,将基本症状的识别看作以词为单位的分类问题而非序列标注问题;
Step3、确定症状实体边界;以Step2识别的基本症状词为中心,利用症状实体构成模式的词性特征来分别进行前、后向的增量迭代,通过确定症状实体边界来实现症状实体识别;
Step4、后处理:合并所有的症状实体;对于每个骨科在线医疗文本未知疾病类问题,都需要通过合并Step3得到的所有症状实体来输出该问题所包含的完整症状,完成最终症状识别;
所述Step2的具体步骤如下:
Step2.1、经过数据预处理操作后,基本的症状用一个词来描述,因此将基本症状识别看作词级别的二分类问题,同时初始化词性-向量映射表和后缀-向量映射表;
Step2.2、利用词向量得到当前目标词的上下文向量表示Input1,将其输入到深度模型的第一部分卷积神经网络CNN中;为卷积出更具代表性的短文本特征,使用2、3两种不同长度卷积窗口,每种长度卷积核若干个,分别对Input1进行从前到后的卷积操作,再经卷积特征组合、重排后输入到对应双向门控循环神经网络Bi-GRU中,最终得到目标词上下文的深度特征向量Input2;
Step2.3、选择当前目标词的词性与后缀作为离散的原始特征,并利用词性-向量映射表和后缀-向量映射表,查找得到对应的向量表示Input3、Input4,与Step2.2得到的连续深度特征Input2进行拼接融合,一起输入Softmax层;
Step2.4、利用softmax函数进行二分类,在此分类模型基础上采用Focal Loss作为损失函数,最终得到当前目标词的分类结果,即“基本症状词”或“非基本症状词”;
Step2.5、对在线医疗文本进行词级分类后,再次遍历文本,若当前目标词的类别标签为“基本症状”,则将其作为症状实体出现的位置,从而实现症状实体位置的识别,其词性也对应修改为“bs”;
所述Step3的具体步骤如下:
Step3.1、症状实体具有某种固定的构成模式,其对应的词性构成也具有规律性,大部分根据其症状构成模式也具有固定模式,据此构建增量迭代时的前向、后向词性规则库;
Step3.2、以Step2得到的基本症状词为中心出发,其中基本症状词起到标识了症状实体在文本中的位置的作用,然后分别向前、向后逐一查找每个词语,将满足词性规则库的词语合并至症状词,直至遇到不符合规则的词语则停止合并,最后输出合并后的症状词作为识别出的症状实体。
2.根据权利要求1所述的基于词性增量迭代的在线医疗文本症状识别方法,其特征在于:所述Step1的具体步骤如下:
Step1.1、首先人工编写爬虫程序,在健康网站的骨科问诊部分中爬取从2018年11月20日到2018年11月25日的所有问题;
Step1.2、把已爬取的问题,经过过滤、去重得到不重复的问题,并进一步经人工分类得到未知疾病类问题文本,作为实验语料存放到数据库中;
Step1.3、利用标准的结巴工具对数据库中的语料进行中文分词、词性标注预处理;
Step1.4、使用word2vec词向量训练方式对分词后的语料进行训练,生成词向量模型。
3.根据权利要求1所述的基于词性增量迭代的在线医疗文本症状识别方法,其特征在于:所述Step4的具体步骤如下:
Step4.1、将Step3识别得到的每个骨科在线医疗未知疾病类问题中出现的所有症状实体,按照基本症状在问题文本中出现的顺序,将这些对应的症状实体集首尾相连拼接起来,然后整体输出作为该问题的最终完整症状识别。
4.根据权利要求1所述的基于词性增量迭代的在线医疗文本症状识别方法,其特征在于:所述深度模型是基于卷积神经网络和门控循环神经网络;对于卷积神经网络,首先进行卷积操作,xi:i+j是句子中第i个单词xi、第i+1个单词xi+1、一直到第i+j个单词xi+j之间的连接;假设xi∈Rk是k维词向量,对应句中的第i个词;卷积操作的卷积核为W∈Rhk,h为窗口的大小;一个局部特征ci是由单词xi到xi+h-1即xi:i+h-1的窗口产生,如公式所示:ci=f(W.xi:i+h-1+b);其中,b∈R是一个偏置向量;f是一个非线性函数;卷积核移动的步长为一个单词得到的特征映射C∈Rn-h+1,如公式所示:C=[c1,c2,…cn-h+1];卷积操作之后不继续池化操作,因为池化操作会丢弃卷积后的部分文本上下文信息,来选择性保留重要信息,会造成问句的时序信息不完整,从而影响后续双向门控循环神经网络的序列建模;门控循环神经网络只有两个门,zt为一个更新门,控制t-1时刻的信息有多少进入t时刻;rt是一个重置门,二者共同决定ht的值,xt表示t时刻所对应的词语,公式为:其中
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910490853.0/1.html,转载请声明来源钻瓜专利网。