[发明专利]一种商品属性抽取方法及其系统有效
申请号: | 202110384685.4 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113076718B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 马进;陈文亮;张民 | 申请(专利权)人: | 苏州爱语认知智能科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/35;G06F16/36;G06F40/169;G06F40/205;G06F40/242;G06N3/04;G06N3/08;G06Q30/02 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 吴竹慧 |
地址: | 215000 江苏省苏州市中国(江苏)自由贸易试验区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 商品 属性 抽取 方法 及其 系统 | ||
1.一种商品属性抽取方法,其特征在于,包括以下步骤:
采用远程监督的方法获得训练集;
通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料,包括:将远程监督方法中没有匹配到实体的标签设为不确定标签;在不确定标签中选择词性的词,将其标注为O,其中O为非实体标签;基于已经标注O的词,指导标注其它不确定标签;不断迭代地对训练集重新标注,获得修正后的属性标注语料;
建立属性抽取模型,使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;
对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;
使用局部标注CRF方法对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型;
使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
2.根据权利要求1所述的商品属性抽取方法,其特征在于,所述BERT-bilstm包括预训练模式,所述预训练模式包括:
采用双层双向Transformer模型通过MLM和NSP两种策略进行预训练;
将Fine-Tuning的模式应用到下游任务。
3.根据权利要求1所述的商品属性抽取方法,其特征在于,所述使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果,包括:
获取BERT的输入的编码向量,所述BERT的输入的编码向量为WordPiece嵌入、位置嵌入和分割嵌入的单位和;
使用LSTM网络将所述BERT的输入的编码向量转化为隐层表示输出。
4.根据权利要求1所述的商品属性抽取方法,其特征在于,所述对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果,包括:
根据属性的编码结果Query和当前位置的字的编码结果Key_i,计算两者的相似性或者相关性,其中,i为当前位置的字的下标;
通过SoftMax的内在机制突出重要元素的权重以进行归一化操作,权重其中,Lx为句子x的长度,simi代表属性与i位置的字向量的关联度;
进行加权求和获得Attention数值,其中,其中,Vi为i位置的字向量的中间表示。
5.根据权利要求1所述的商品属性抽取方法,其特征在于,所述使用局部标注CRF对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型,包括:
定义预测标签序列Y=(Y1,Y2,...,Yn)的得分Score(x,y),
其中,A是转移得分矩阵,Ai,j代表从标签i转移到标签j的得分,y0和yn分别是标签序列中的起始和结束标签;
获取基于所有可能的标签集合Yx下的条件概率P(y|x):
其中,X=(X1,X2,...,Xn)为输入序列,score(C,YL)的计算方式如下:
其中,YL为所有正确序列的集合,对转移得分矩阵A进行训练,最大化正确标签序列的对数似然概率。
6.根据权利要求1所述的商品属性抽取方法,其特征在于,所述使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果,包括:
选取满足作为最佳预测标签序列,获得只含有BIO标签的结果序列。
7.根据权利要求1所述的商品属性抽取方法,其特征在于,在不确定标签中选择一些词性的词,包括:
在不确定标签中选择标点、副词、代词、连词、介词、叹词、拟声词和助词中的一种或多种。
8.一种商品属性抽取系统,其特征在于,包括:
数据预处理模块,所述数据预处理模块采用远程监督的方法获得训练集,通过self-training结合局部标注的方法不断对训练集进行重新标注,获得修正后的属性标注语料,包括:将远程监督方法中没有匹配到实体的标签设为不确定标签;在不确定标签中选择词性的词,将其标注为O,其中O为非实体标签;基于已经标注O的词,指导标注其它不确定标签;不断迭代地对训练集重新标注,获得修正后的属性标注语料;
编码模块,所述编码模块基于属性抽取模型,使用BERT-bilstm作为编码器,对所述属性标注语料的句子和属性值进行编码,获得句子和属性值的编码结果;
注意力机制变换模块,所述注意力机制变换模块对所述句子和属性值的编码结果进行注意力机制变换,获得注意力机制变换后的编码结果;
训练优化模块,所述训练优化模块使用局部标注CRF方法对注意力机制变换后的编码结果进行BIO标签获取,优化属性抽取模型;
测试模块,所述测试模块使用优化后的属性抽取模型对注意力机制变换后的编码结果进行解码,获得含有BIO序列的标签结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州爱语认知智能科技有限公司,未经苏州爱语认知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110384685.4/1.html,转载请声明来源钻瓜专利网。