[发明专利]一种复杂实体抽取方法、装置、介质及系统有效
申请号: | 201910625736.0 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110502742B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 靳小龙;程学旗;席鹏弼;郭嘉丰;李紫宣 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;张燕华 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 实体 抽取 方法 装置 介质 系统 | ||
本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。
技术领域
本发明涉及自然语言处理领域,具体涉及一种面向文本的复杂实体抽取方法。
背景技术
实体抽取作为知识抽取中的子任务,也是最基础的一步,指的是从原始语料中自动识别出指定类型的命名实体,我们所说的实体,又称为命名实体,主要包括实体名,如国家名,组织机构名,地名,人名,缩略词,以及一些数学表达式,如货币值,百分数,时间表达式等。本发明中所提到的复杂实体,是一类由数字,特殊符号,英文和汉字组成的实体,可能指代一个产品名称如华为P20手机,也可能指代一种农用拖拉机型号,如黄海金马1504A大型农用拖拉机。
现有的实体抽取方法大多是针对通用实体,如人名,地名,机构名等实体。一般都会将实体抽取转化为序列标注问题。以句子为单位进行句内每一个单元进行多分类。对于中文实体抽取来说,按照单元的粒度,可以分为词语级别的实体抽取和字级别的实体识别。词语级别的实体识别需要先对句子进行中文分词,再基于分词结果,对每一个词语进行序列标志,字级别的实体识别不需要进行中文分词,直接将句子看成字序列对句子中的每一个字进行序列标注。这两种方法主要分为以下几个步骤:
1、首先对输入的句子进行分词(如果是字级别的直接将一个字当成一个词);
2、接着对每一个词提取相关的上下文特征,通常使用两种方法,一是基于自然语言处理工具的构造特征,譬如依存关系、句法结构和词性等,二是基于神经网络生成的表示特征,譬如词向量等;
3、将输入层输入到条件随机场(CRF)和双向长短时记忆网络(Bi-LSTM)中;
4、将隐含层输出输入到softmax层,输出在每一个类别上的概率;
5、在Bi-LSTM+CRF模型中,还需要将softmax层的输出输入到CRF中,通过维比特算法求解序列解。
传统的基于BIO的标注方式和基于BIOES的标注方式指的是B(实体开头词),I(实体中间词),O(非实体词),E(实体结尾词),S(单一实体词)。然而对于复杂实体,由于实体本身由多种成分构成,实体词长度比普通实体要长,实体中蕴含得信息也比普通实体多,传统的基于BIO(BIOES)的标注方式无法体现复杂实体的特殊性,同时由于复杂实体中的词在自然文本语料中很少出现,尤其是一些型号编码,使得预训练的词向量并不能很好的体现复杂实体中词语的语义信息,上述原因导致针对复杂实体的抽取精度不高。
由于长短时记忆网络(LSTM)之类的序列模型在GPU运算上没有卷积神经网络CNN(Convolutional Neural Networks)高效,以往序列模型的训练和预测都比较耗时,在面临海量文本时,实体抽取效率也是我们需要考虑的因素。
综上可知,现有技术在实际使用上,显然存在不便与缺陷,所以有必要加以改进。
发明内容
为了解决上述技术问题,本发明目的在于提供一种基于自定义标注格式的迭层膨胀卷积神经网络IDCNN(Iterated Dilated Convolutional Neural Networks)进行中文实体识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910625736.0/2.html,转载请声明来源钻瓜专利网。