[发明专利]一种基于自注意力的BILSTM-CRF产品名称识别方法有效
申请号: | 201811463626.0 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109614614B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 房海朔;殷亚云 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F16/33;G06F16/38;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 bilstm crf 产品名称 识别 方法 | ||
1.一种基于自注意力的BILSTM-CRF产品名称识别方法,其特征在于,包括半自动标注产品标题数据,模型构建及训练,模型使用三个部分,具体步骤如下:
步骤S1,半自动标注产品标题数据:
1)、根据现有产品名称词典,对产品标题进行关键词匹配,构成产品名称候选集;
2)、根据对应的产品名称属性库,找出相似度最高的产品名称,作为产品名称的初步标注结果;
3)、根据S2的训练结果重新预测步骤S1-2)的产品标题标注数据,比较初步标注结果和预测结果的差异,人工修正错误标注;形成“初步标注-学习-预测标签-人工修正-学习-预测标签”的操作循环,执行该操作循环直至标注没有错误的迭代过程;
步骤S2,模型构建及训练:
4)、将产品标题作为输入,随机初始化M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,从而将产品标题中的每个字映射为N维稠密向量;
5)、将产品标题中的每个字按照时序序列Sequential sequence输进循环神经网络,提取产品标题中的文本序列特征;
6)、利用自注意力层,对文本序列特征赋予不同的权重,提取出识别产品名称的关键信息;
7)、将经过自注意力层编码后的向量输入进分类层,得到产品标题每个字对应的标签,即判断其是否属于产品名称;
8)、将步骤S2-7)步的分类结果输入进CRF层,根据已有标注结果,训练整个模型,得到所有更新好的参数,包括步骤S2-4)中的字向量表;
9)、进行步骤S1-3),对初步标注结果进行修正;
10)、增量学习步骤S2-9)修正后的产品名称数据;
11)、重复步骤S2-9)和S2-10),直至标注没有错误;
步骤S3,模型使用:
12)、将待识别文本输进步骤S2得到的模型,根据步骤S2-8)得到的字向量表将文本映射成N维稠密向量;
13)、输入步骤S3-12)的结果,根据步骤S2-8)更新好的参数,计算出每个字对应的标签概率;
14)、根据更新好的标签之间转移概率和S3-13)计算出的字的标签概率,利用维特比算法,得到每个字对应的标签;
15)、根据S3-14)得到的标签,取出是产品名称的部分;
16)、结束;
所述步骤S1-1)中建立部分产品名称的词典和对应的属性库,检索产品标题中出现的产品名称,将其作为候选集;
所述步骤S1-2)中利用候选集中的产品名称对应属性库和产品标题的属性库计算相似度,此处的属性库为产品其他信息的总和,包括商家填写的产品关键词,产品描述,产品材质,用途;相似度的计算方法为将候选集中产品名称对应的属性利用tf-idf表征,再计算属性余弦相似度,取相似度最大的作为初步标注结果;
所述步骤S2-4)中将每个字映射为N维稠密向量,方法是在tensorflow中初始化一个M*N维度的字向量表,M表示训练语料中的字数,N表示每个字被映射的维度,然后根据字向量表查找每个字对应的N维稠密向量,此字向量表会根据训练任务进行更新不需要预先训练;
所述步骤S2-5)中,循环神经网络采用的是Bi-LSTM双向长短期记忆模型;
所述步骤S2-6)中,自注意力层采用的是:
其中,Q,K,V都代表同一个产品标题,其维度是M*N,M表示产品标题中包含的字数,N表示每个字的维度,对产品标题中每个字赋予不同的权重,从而提取出识别产品名称的关键信息;
所述步骤S2-7)中,采用的分类层为softmax分类层,即由步骤S2-6)得到的向量经过一层线性变化后,输入进激活函数softmax,即可得到每个字对应的标签概率;
所述步骤S2-8)中,根据模型的表现对超参数进行调优,学习率取值为0.001,隐藏单元的数量取值为256维,dropout取值为0.5,CRF层的训练如下:
给定训练数据集X和对应的标签序列Y,优化目标为:在现有的文本序列X下,使得标签序列Y的概率最大,即条件概率P(Y|X)最大,因此优化函数为:
其中代表标签yi到yi+1的转移概率,代表第i个位置对应标签yi的概率,根据步骤S2-7)得到需要学习的参数为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811463626.0/1.html,转载请声明来源钻瓜专利网。