[发明专利]一种基于词性增量迭代的在线医疗文本症状识别方法有效
申请号: | 201910490853.0 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110298036B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 黄青松;尤诚诚;余慧;刘利军;冯旭鹏 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F16/35;G06F16/951;G06N3/04;G16H80/00;G16H50/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 增量 在线 医疗 文本 症状 识别 方法 | ||
本发明涉及一种基于词性增量迭代的在线医疗文本症状识别方法,属于计算机自然语言处理技术领域。本发明包括步骤:首先通过基于特征融合的分类模型完成基本症状识别,以确定症状实体的位置;再根据症状实体的构成模式,以基本症状词为中心利用对应词性前后进行增量迭代,确定症状实体的边界来完成症状实体识别;最后通过合并所有症状实体得到症状识别的结果。该方法有效识别出在线医疗文本中复杂较长的症状,其准确度比传统的医疗命名实体识别方法提高了约5.4%。
技术领域
本发明涉及一种基于词性增量迭代的在线医疗文本症状识别方法,属于计算机自然语言处理技术领域。
背景技术
医疗问答中的症状实体识别是一个难点,原因有两个:一是相比疾病、检查等医疗实体的抽取,症状实体的抽取没有标准的症状库可以利用,而针对医疗问答的构建更是费时费力;二是患者在描述症状时,由于个体差异,症状的表述形式往往丰富多样,并且口语化严重。因此一般的症状实体识别方法在医疗问答中往往识别边界不准确,导致不能完整识别出复杂较长的症状。目前,有关症状实体识别的方法主要可分为三种:基于词典或规则的方法、基于机器学习的方法和基于深度学习的方法。基于语言规则的方法,在中文方面,许华等基于人工总结的规则,抽取出药品说明书中的致病菌、症状和疾病3类实体。但其并未对抽取的症状实体所用规则进行详细说明,另外,从给出的识别致病菌实体的规则实例看出,人工定义的规则往往比较简单,不适用于表述较为复杂的症状实体识别,而且也费时费力。基于机器学习的方法。若将命名实体识别看作一个分类问题,可采用类似支持向量机、贝叶斯模型等分类方法;若将其看作一个序列标注问题,从而利用隐马尔可夫、最大熵马尔可夫、条件随机场等序列标注模型。叶枫等自建词典,采用CRF对电子病历中的疾病、临床症状、手术操作这3类比较常见的医疗实体进行识别,并达到90%以上的F值。王世昆等则对明清古医案中的病机与症状进行了识别,分别采用CRF和SVM来进行训练和测试。但是大多数传统的基于机器学习的症状实体识别方法,对特征的选取会有更高的要求。对此,利用神经网络在特征学习方面的优势,最近研究者提出了基于深度学习的方法来解决生物医疗领域的NER问题,通过少量的特征工程却实现最优的性能表现。比如双向长短期记忆(Long-short Term Memory,LSTM)神经网络结合CRF来完成医疗命名实体的识别,实现了不同数据集上的平均F值达到89.12%。这些传统的症状识别的方法不能很好的解决医疗问答中的症状识别的难点,识别效果不理想。
发明内容
本发明提供了一种基于词性增量迭代的在线医疗文本症状识别方法,相比传统的症状识别方式,充分的考虑到了医疗问答中文本的语义特征和原始特征,能更加全面和准确的识别出问句中的症状。
本发明的技术方案是:一种基于词性增量迭代的在线医疗文本症状识别方法,所述方法的具体步骤如下:
Step1、从问诊网页上爬取问诊问题,并通过人工分类得到其中骨科未知疾病类问题文本作为实验语料,其次对语料进行预处理,并生成词向量模型;
Step2、确定症状实体位置;经Step1预处理操作之后,通过识别基本症状词来确定症状实体位置,将基本症状的识别看作以词为单位的分类问题而非序列标注问题;
Step3、确定症状实体边界;以Step2识别的基本症状词为中心,利用症状实体构成模式的词性特征来分别进行前、后向的增量迭代,通过确定症状实体边界来实现症状实体识别;
Step4、后处理:合并所有的症状实体;对于每个骨科在线医疗文本未知疾病类问题,都需要通过合并Step3得到的所有症状实体来输出该问题所包含的完整症状,完成最终症状识别。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、利用爬虫程序从“39问医生”、“好问康网”等六个健康网站的骨科问诊部分爬取了从2018年11月20日到2018年11月25日的所有问题,;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910490853.0/2.html,转载请声明来源钻瓜专利网。