[发明专利]一种基于多层级文本表示及模型融合的用户画像生成方法在审

专利信息
申请号: 202110569271.9 申请日: 2021-05-25
公开(公告)号: CN113486143A 公开(公告)日: 2021-10-08
发明(设计)人: 杜永萍;苗宇;金醒男 申请(专利权)人: 北京工业大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06K9/62;G06N3/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多层 文本 表示 模型 融合 用户 画像 生成 方法
【权利要求书】:

1.一种基于多层级文本表示及模型融合的用户画像生成方法,其特征在于,包括以下步骤:

步骤1,建立并整理基础语料库:基础语料库为从互联网上爬取的用户真实元数据,并对用户真实元数据进行整理;

步骤2,构建基于多层级文本表示及模型融合的用户画像生成模型,构造基于多层级文本表示的三个一级分类器,分别为基于单词级特征向量的神经网络分类模型、基于子词表示的神经网络分类模型和基于字符表示的神经网络分类模型;

步骤3,构建基于单词级特征向量的神经网络分类模型:导入词向量模型,将用户元数据文本的单词使用预训练的词向量模型生成词向量,将词向量的均值和方差初始化为预训练词向量的均值和方差,作为模型的输入;

步骤4,构建基于子词表示的神经网络分类模型:单词w映射为多个字符级的n-gram子词,在训练子词向量时,为获取更多的词根词缀信息,同时使用字符级的3-gram至6-gram的子词表示;使用哈希技术适度的将几个子词对应生成同一个词向量,最后词向量为各子词向量求和生成,作为模型的输入;

步骤5,创建基于字符表示的神经网络分类模型:整理出字符表,字符表包括26个小写字母、常用标点、部分特殊字符70个字符构成字符表;将用户文本包含的字符基于创建的字符表使用one-hot表示,作为模型的输入;

步骤6,经步骤3,4,5得到训练好的三个一级分类模型后,进行模型融合进行二次分类:将每个模型得到的作为测试集部分的训练数据预测值拼接,得到新的特征矩阵,当做二级分类器的输入特征矩阵,特征值仍为原训练数据所对应的标签值;将每个模型得到的测试数据预测值求和取平均后拼接,得到的特征矩阵作为二级分类器的测试数据,特征值同样为原测试数据对应的标签值;

将以上步骤得到的特征矩阵输入至二级分类器进行训练,二级分类器为全连接层拼接线性分类构成。

2.根据权利要求1所述的一种基于多层级文本表示及模型融合的用户画像生成方法,其特征在于,步骤1中,所述的整理包括对收集到的基本语料进行清洗和整理,填充缺省值,去除停用词和低频词。

3.根据权利要求1所述的一种基于多层级文本表示及模型融合的用户画像生成方法,其特征在于,步骤3中,搭建卷积神经网络分类模型,使用3个不同尺寸的一维卷积核进行n-gram特征提取,每次卷积后使用一维maxpooling层将每次提取出的特征选择最大值进行特征降维,最后拼接3个全连接层进行分类,在全连接层之间加入dropout层避免模型过拟合;基于单词级特征向量的神经网络分类模型的输出为每次K折交叉验证中作为测试集部分的训练数据的预测值向量,以及原测试数据的预测值向量。

4.根据权利要求1所述的一种基于多层级文本表示及模型融合的用户画像生成方法,其特征在于,步骤4中,将训练好的每个词向量相加取平均得到文档的向量表示作为输入,经线性分类器进行分类;基于子词表示的神经网络分类模型的输出为每次K折交叉验证中作为测试集部分的训练数据的预测值向量,以及原测试数据的预测值向量。

5.根据权利要求1所述的一种基于多层级文本表示及模型融合的用户画像生成方法,其特征在于,步骤5中,使用一维卷积核在特征维度进行卷积运算,并在长度维度进行最大池化操作;搭建卷积网络分类模型,在此分类模型中使用六层卷积层和三层全连接层,其中三层卷积层搭配了最大池化层进行特征降维;并在分类模型中,加入了BN操作,使得特征向量在输入到神经网络的每一层之前,都保持相同分布;在分类器训练完成后,使用测试数据进行测试时,同样考虑数据的分布情况,使用平滑方法,修正每次测试时数据的均值和方差;基于字符表示的神经网络分类模型的输出为每次K折交叉验证中作为测试集部分的训练数据的预测值向量,以及原测试数据的预测值向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110569271.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top