[发明专利]一种基于规则和统计学习的变形实体识别方法和装置有效
申请号: | 201910048233.1 | 申请日: | 2019-01-18 |
公开(公告)号: | CN110008307B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 虎嵩林;黄龙涛;周艳;吕尚文 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 统计 学习 变形 实体 识别 方法 装置 | ||
1.一种基于规则和统计学习的变形实体识别方法,其特征在于,包括以下步骤:
1)利用规则,通过演绎的方式为每个目标实体生成候选变形实体;
2)基于统计学习的方法,从候选变形实体中选出和目标实体对应的变形实体;
步骤1)基于以下假设构建所述规则:在创造变形实体时受到和目标实体相关的信息的启发;
所述规则包括下列中的一种或多种:和目标实体相关的常识,用CK表示;和目标实体相关的事件,用RE表示;和实体中某个字的读音相似的规则,用PS表示;把实体中的字进行拆分,用SD表示;用来强调实体的规则,用AT表示;和实体中词具有语义近似关系的规则,用SI表示;
所述步骤1)为每个目标实体自动构建满足相关规则的构造词,然后根据定义的规则以及生成的构造词,通过演绎的方式为每个目标实体生成对应的候选变形实体;所述构造词根据规则分为两大类:
第一类定义为NP,指通过规则CK、RE、AT和SI所生成的构造词,用来和其他的词进行组合;
第二类定义为NN,指通过规则PS和SD所生成的构造词,用来替换目标实体以及生成的候选实体中的字;
所述通过演绎的方式为每个目标实体生成对应的候选变形实体,包括:首先把目标实体中的部分词和NP中的词组合在一起或者用NP中的词完全的替代目标实体来生成候选变形实体;然后生成的候选实体以及目标实体中的部分字用NN中的词所代替,继续生成另外一些候选变形实体。
2.根据权利要求1所述的方法,其特征在于,步骤2)利用变形实体和目标实体的语义相似性得到和目标实体对应的变形实体。
3.根据权利要求2所述的方法,其特征在于,步骤2)包括:
a)采用CBOW模型,利用大量的无标注语料训练得到词向量,把目标实体和变形实体映射成对应的词向量;
b)计算目标实体的词向量和它对应的候选变形实体集合中所有词向量的相似度;
c)把候选变形实体集合中所有词按照相似度从高到低进行排序,同时设置一个阈值,阈值大于0小于1,用阈值乘以集合中词的总量得到值N,然后选取相似度最高的N个值对应的词,作为目标实体对应的变形实体。
4.根据权利要求1所述的方法,其特征在于,步骤2)将正确变形实体的识别转化为一个多分类问题,通过多分类器得到和目标实体对应的变形实体,包括以下步骤:
a)多分类器的输入是包含目标实体或者候选变形实体的文本,分类的目标是所有目标实体以及一个标志不包含任何目标实体的类别集合;
b)把所有包含目标实体的文本作为训练文本训练多分类器,然后把包含候选变形实体的文本输入分类器中,利用多分类器预测候选变形实体对应的类别;
c)对于每一个候选变形实体,如果分类器预测的类别和其目标实体一致,则为正确的变形实体,否则为错误的变形实体,从而得到每个目标实体的正确变形实体集合。
5.根据权利要求4所述的方法,其特征在于,所述多分类器的训练过程包括:
a)把所有包含目标实体的文本作为训练文本进行分词后,映射成对应的词向量;
b)对每个词进行词性标注,把对应的词性也映射成向量,和词向量进行拼接后输入到分类模型中;
c)分类模型中采用BLSTM学习实体所在的上下文信息,得到每个字符的向量表示;
d)利用attention机制,学习句子中对预测结果重要的部分,得到句子的向量表示;
e)利用softmax层对学习到的文本信息进行分类;
f)采用交叉熵作为分类模型的目标函数,利用反向传播算法训练分类模型。
6.一种采用权利要求1~5中任一权利要求所述方法的基于规则和统计学习的变形实体识别装置,其特征在于,包括:
候选变形实体生成模块,负责利用规则,通过演绎的方式为每个目标实体生成候选变形实体;
正确变形实体识别模块,负责基于统计学习的方法,从候选变形实体中选出和目标实体对应的变形实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910048233.1/1.html,转载请声明来源钻瓜专利网。