[发明专利]一种面向中文医疗文本命名实体识别的方法有效

申请号：	201911223532.0	申请日：	2019-12-03
公开（公告）号：	CN111079377B	公开（公告）日：	2022-12-13
发明（设计）人：	黄少滨;张柏嘉;申林山;李熔盛;李轶;余日昌;颜伟;邹长明	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F40/117	分类号：	G06F40/117;G06F40/289;G06F40/295;G06F40/279;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向中文医疗文本命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向中文医疗文本命名实体识别的方法，其特征在于，包括以下步骤：

步骤1：输入待识别的中文医疗文本，进行预处理；

步骤1.1：根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注，S＝(w₁，w₂，…w_i，…w_n)，w_i表示对S进行分词之后，该句子中的第i个词语；

步骤1.2：对每个句子进行分字处理，S＝(c₁，c₂…c_i…c_m)，其中c_i表示对句子S进行分字处理后的第i个字符；

步骤2：对于每一个句子S，对组成它的字、词、部首三个粒度的特征分别进行提取；

步骤2.1：词语特征的提取及向量表示；

对于分词和标注之后的每个句子中的每个词语w_i，将该词语的第一个字符用1表示，最后一个字符用3表示，出现在中间位置的字符统一编码为2；当一个词语的长度小于2，则其所对应的向量在终止位置之后统一用0补齐；对于只由单个汉字独立构成的词，统一用全为0的20维向量来表示，得到词语的向量V_i^w＝(η₁，η₂…η_k)，k＝20；

步骤2.2：字特征的提取和向量表示；

利用现有的Word2Vec模型中的Skip-Gram算法对文本中的每一个字符进行训练，将每个字符用100维的数值向量进行表示，得到字向量t＝100；

步骤2.3：部首特征的提取和向量表示；

将文本中每个单字的部首拆分出来，设其部首所对应的会意字为P，则通过检索字向量字典得到该会意字所对应的100维字向量，将该100维向量看作是该字的部首向量，记为l＝100；

步骤3：将提取出的三种特征进行特征融合，得到用于实体识别和分类的特征的联合向量表示；

步骤3.1：字向量和部首向量的融合；

使用逐点相加法对二者进行特征融合，将两个向量的对应分量逐个进行相加，用相加之后的分量作为融合之后新的特征向量的分量，记将字向量和部首向量融合之后的特征向量为x＝(x₁，x₂，…x_l)，用如下的公式表示：

x＝(x₁，x₂，…x_l)＝(μ₁+θ₁，μ₂+θ₂，…μ_t+θ_l)

步骤3.2：词语特征的融合；

对于字+部首的特征向量与词语特征向量进行融合，由于二者的维度不相同，这里使用维度拼接的方法进行特征融合，记融合之后的最终特征向量为Y＝(y₁ … y_d)，其中d表示融合之后特征的维度，则维度拼接的过程由如下的公式表示：

其中，d＝k+l，通过前面的条件可知，这里的d＝120，即最终得到的融合之后的特征向量为120维；

步骤4：使用ID-CNN-CRF网络来训练医疗实体识别的模型，将融合后的特征向量作为ID-CNN网络的输入进行模型训练过程，将输出向量再次利用CRF模型进行序列标注，从而生成最终的模型；

模型训练阶段需要初始化模型参数，训练的第一步需要将不同粒度的特征向量作为输入送入到模型的embedding层进行特征融合得到句子中每个字的联合特征表示，之后将这些向量作为输入向量首先输入到普通的卷积网络中进行一次训练，之后在分别输入到膨胀系数不同的膨胀卷积网络中进行训练，将得到的结果进行维度拼接得到新的输出向量，最后输入到条件随机场CRF模型中进行训练；在网络训练阶段选取adam函数作为优化器进行迭代训练，每轮训练通过不断降低误差，提高准确率训练模型的参数，从而得到训练模型，之后再利用条件随机场作为解码器对模型进行解码，即通过转移概率来获得实体中每个字被标记为某个标签的最大的可能性，从而为实体打上类别标签，实现实体识别和分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911223532.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向中文医疗文本命名实体识别的方法有效

专利文献下载