[发明专利]一种政府采购品目层次分类模型的构建方法在审
申请号: | 202111130390.0 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113946678A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 谭军;潘嵘;李迪欣;王君瑶;杜建伟;钟鸣 | 申请(专利权)人: | 广州市伟时信息系统技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/33;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510260 广东省广州市海珠区新港西路135号大院*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 政府 采购 品目 层次 分类 模型 构建 方法 | ||
1.一种政府采购品目层次分类模型的构建方法,其特征在于,包括以下步骤:
S1:构建政府采购品目层次标签的树形结构,并对标签进行编码;
S2:对所述政府采购项目名称进行文本清洗和分词处理,获取分词后文本词向量,拼接所述词向量,得到词向量矩阵;
S3:设计普通注意力模型和层级注意力模型,将所述文本的编码表示和标签的编码表示分别带入所述普通注意力模型和所述层级注意力模型进行分类,得到局部分类结果和全局分类结果。
2.根据权利要求1所述的政府采购品目层次分类模型的构建方法,其特征在于,所述步骤S2中,对政府采购项目名称进行文本清洗和分词处理,获取分词后文本词向量,包括以下步骤:
1)、将文本划分成合理的词语序列;
2)、对所述分词结果进行词嵌入和文本编码表示,将序列映射成一个固定长度的向量;所述向量能很好的表示该序列的特征;
3)、使用Bert模型对所述分词结果进行词嵌入,Bert以双向Transformer编码器为基础,使用随机遮蔽词语法实现预训练的深度双向表示,并且通过训练百科中的语料,获取字符级别的词向量以及模型参数。
3.根据权利要求2所述的政府采购品目层次分类模型的构建方法,其特征在于,所述步骤S3中,所述层级注意力模型具有三层结构:文档编码层,层次注意力循环网络层和混合预测层;所述文档编码层用嵌入层分别对文本和层次类别结构进行编码,接着使用Bi-LSTM模型或者Bi-GRU模型对文本的语义关系做进一步的增强;所述层次注意力循环网络层是通过自上而下的方式利用层次结构逐步对不同层次之间的依赖关系进行建模;在每个类别层级上,重复层次注意力记忆单元,捕捉文本和类别之间的关联。
4.根据权利要求4所述的政府采购品目层次分类模型的构建方法,其特征在于,所述步骤S3中,用嵌入层分别对文本和层次类别结构进行编码,接着使用Bi-LSTM模型或者Bi-GRU模型对文本的语义关系做进一步的增强,包括以下步骤:
所述Bi-LSTM是正向LSTM和反向LSTM相结合;LSTM学习和利用数据的序列依赖性,通过控制输入门、遗忘门和输出门的输出,选择记忆和遗忘一些信息;Bi-LSTM学习更长的序列信息,还可以融合前后上下文的信息;
所述Bi-GRU的原理和所述Bi-LSTM的原理相同,使用方向相反的GRU网络进行文本特征提取,再进行拼接;GRU通过控制重置门和更新门的输出,选择记忆和遗忘某些信息;
通过所述Bi-LSTM或者所述Bi-CRU获得所述文本的语义增强矩阵,对每一层的标签进行嵌入,随机生成初始嵌入矩阵,然后将获得的所述语义增强矩阵和所述初始嵌入矩阵输入到所述层次注意力循环网络层。
5.根据权利要求4所述的政府采购品目层次分类模型的构建方法,其特征在于,所述层次注意力记忆单元包含三个模块,分别是文本-标签注意力模块,分类预测模块和层级依赖模块;
所述文本-标签注意力模块用于捕捉文本和层次类别之间的相关性,并且获得层次类别标签与文本之间的关系表示和层次类别标签与文本之间的注意力矩阵;
所述分类预测模块用于整合原始文本的语义表示和融合了前一层次信息的文本类别表示,为每一层次生成统一的表示并进行类别预测;
所述层级依赖模块用于通过为每一层级都保留层次信息从而对不同层级进行依赖关系建模。
6.根据权利要求5所述的政府采购品目层次分类模型的构建方法,其特征在于,对第h层的类别标签,不同的类别对预测结果有不同的贡献度,从而能够修正注意力矩阵:
对于层次类别结构的第h层,文本-标签注意力模块的输入为,全文本表示V,对应的层级表示Sh,以及上一层级传递的权重参数wh-1:
使用平均池化操作得到N个词语的平均嵌入是在h层类别标签与文本之间的关系表示,是在h层类别标签与文本之间的注意力矩阵,是第h层的类别预测输出向量,由于根结点即第0层不包含任何信息,所以用元素1来初始化第0层的权重参数w0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市伟时信息系统技术有限公司,未经广州市伟时信息系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111130390.0/1.html,转载请声明来源钻瓜专利网。