[发明专利]一种面向实体和用户画像的特征融合方法在审
申请号: | 201910540846.7 | 申请日: | 2019-07-09 |
公开(公告)号: | CN110245719A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 王晓东;丁香乾;王清 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 山东重诺律师事务所 37228 | 代理人: | 冷奎亨 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 画像 特征融合 训练特征 标签信息 匹配 多层感知 画像信息 神经网络 实体内容 实体特征 学习目标 训练网络 噪声特征 融合 端到端 多层 降维 去除 抽取 归纳 筛选 网络 监督 联合 | ||
1.一种面向实体和用户画像的特征融合方法,其特征在于:包括以下步骤:
步骤1:获取用户的标签信息;
步骤2:根据所述标签信息建立用户画像;
步骤3:通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取;
步骤4:基于用户的画像,筛选出用户可能喜欢或感兴趣的实体内容;
步骤5:将实体和用户画像进行特征融合。
2.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤1中所述获取用户的标签信息,包括:获取互联网中的各类数据,并将获取的互联网中的各类数据进行融合形成知识库;获取用户的上网日志;将所述上网日志与所述知识库进行匹配形成用户标签信息。
3.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤2所述标签信息,包括:数据计算出来的统计类标签信息、建模算法得出的模型类标签信息、单客户标签信息和标签体系用户群信息;所述统计类标签包括地域信息、人口基本属性信息;所述模型类标签包括用户行为偏好、用户消费价值度、用户消费习惯预测。
4.根据权利要求2所述的一种面向实体和用户画像的特征融合方法,其特征在于:所述获取互联网中的各类数据,并将获取的互联网中的数据进行融合形成知识库,包括:采用分布式爬虫爬取方式获取互联网各类数据;对所述获取的互联网各类数据进行细化类别,然后进行标签自动归并,并将类别进行统一。
5.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤2所述根据所述标签信息建立用户画像的步骤包括:将用户的一个或者多个标签信息组成一个文本向量;将所述文本向量作为用户的用户画像。
6.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤4所述基于用户的画像,筛选出用户可能喜欢或感兴趣的内容,包括:根据用户在网络中的历史数据进行数据分析,分析用户可能喜欢或者感兴趣的内容;所述历史数据包括用户的消费习惯数据、浏览网页数据、购物数据、外卖数据、团购数据、购买电影票数据、App使用习惯数据、用户画像结果数据。
7.根据权利要求1所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤5所述将实体和用户画像进行特征融合,包括以下步骤:
(1)文本表征,预设m1个分词处理好文本数据,分别为每个文本都有对应的实体,利用文本分析技术为所有文本数据生成相应的特征向量;
(2)多层次实体表征,具体包括以下步骤:
①预设m2个实体数据,分别为每个实体都有其对应的文本,在实体分类学习目标的指导下,利用丰富的实体分类数据集,预先训练得到一个预训练卷积神经网络;
②把实体输入到该预训练卷积神经网络中,并对预训练网络中的n层特征进行拼接,以作为实体的多层次总预训练特征;
(3)为了从多层次的预训练特征中归纳出对实体和用户画像匹配任务有用的特征和舍弃无用的噪声特征,构建一个多层感知机(Multi-Layer Perceptron,MLP);
(4)利用实体和用户画像匹配的学习目标,指导多层感知机MLP对实体的多层次总预训练特征进行融合和降维,生成融合特征。
8.根据权利要求7所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤①所述的实体分类数据集为ImageNet数据集。
9.根据权利要求7所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤②中,把实体Ik输入到预训练卷积神经网络中,即可生成对应的多层次总预训练特征即
其中为预训练网络中使用到的第i层特征,为了令各层特征能拼接在一起,若使用到的某层特征为卷积层特征,必须要先进行池化操作以消除空间信息,若使用到的某层特征为全连接层特征,则不必进行池化操作。
10.根据权利要求7所述的一种面向实体和用户画像的特征融合方法,其特征在于:步骤⑶所述的多层感知机MLP的各层维度随着深度增加相应降低,以满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要,并且该多层感知机MLP的输出层维度与文本特征的维度一致,在多层感知机MLP的隐藏层和输出层设置非线性激活函数,以增强表达能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910540846.7/1.html,转载请声明来源钻瓜专利网。