[发明专利]一种面向实体和用户画像的特征融合方法在审

申请号：	201910540846.7	申请日：	2019-07-09
公开（公告）号：	CN110245719A	公开（公告）日：	2019-09-17
发明（设计）人：	王晓东;丁香乾;王清	申请（专利权）人：	中国海洋大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	山东重诺律师事务所 37228	代理人：	冷奎亨
地址：	266100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	画像特征融合训练特征标签信息匹配多层感知画像信息神经网络实体内容实体特征学习目标训练网络噪声特征融合端到端多层降维去除抽取归纳筛选网络监督联合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向实体和用户画像的特征融合方法，其特征在于：包括以下步骤：

步骤1：获取用户的标签信息；

步骤2：根据所述标签信息建立用户画像；

步骤3：通过基于神经网络的端到端模型对网络中实体和用户画像信息进行联合抽取；

步骤4：基于用户的画像，筛选出用户可能喜欢或感兴趣的实体内容；

步骤5：将实体和用户画像进行特征融合。

2.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤1中所述获取用户的标签信息，包括：获取互联网中的各类数据，并将获取的互联网中的各类数据进行融合形成知识库；获取用户的上网日志；将所述上网日志与所述知识库进行匹配形成用户标签信息。

3.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤2所述标签信息，包括：数据计算出来的统计类标签信息、建模算法得出的模型类标签信息、单客户标签信息和标签体系用户群信息；所述统计类标签包括地域信息、人口基本属性信息；所述模型类标签包括用户行为偏好、用户消费价值度、用户消费习惯预测。

4.根据权利要求2所述的一种面向实体和用户画像的特征融合方法，其特征在于：所述获取互联网中的各类数据，并将获取的互联网中的数据进行融合形成知识库，包括：采用分布式爬虫爬取方式获取互联网各类数据；对所述获取的互联网各类数据进行细化类别，然后进行标签自动归并，并将类别进行统一。

5.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤2所述根据所述标签信息建立用户画像的步骤包括：将用户的一个或者多个标签信息组成一个文本向量；将所述文本向量作为用户的用户画像。

6.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤4所述基于用户的画像，筛选出用户可能喜欢或感兴趣的内容，包括：根据用户在网络中的历史数据进行数据分析，分析用户可能喜欢或者感兴趣的内容；所述历史数据包括用户的消费习惯数据、浏览网页数据、购物数据、外卖数据、团购数据、购买电影票数据、App使用习惯数据、用户画像结果数据。

7.根据权利要求1所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤5所述将实体和用户画像进行特征融合，包括以下步骤：

(1)文本表征，预设m1个分词处理好文本数据，分别为每个文本都有对应的实体，利用文本分析技术为所有文本数据生成相应的特征向量；

(2)多层次实体表征，具体包括以下步骤：

①预设m2个实体数据，分别为每个实体都有其对应的文本，在实体分类学习目标的指导下，利用丰富的实体分类数据集，预先训练得到一个预训练卷积神经网络；

②把实体输入到该预训练卷积神经网络中，并对预训练网络中的n层特征进行拼接，以作为实体的多层次总预训练特征；

(3)为了从多层次的预训练特征中归纳出对实体和用户画像匹配任务有用的特征和舍弃无用的噪声特征，构建一个多层感知机(Multi-Layer Perceptron,MLP)；

(4)利用实体和用户画像匹配的学习目标，指导多层感知机MLP对实体的多层次总预训练特征进行融合和降维，生成融合特征。

8.根据权利要求7所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤①所述的实体分类数据集为ImageNet数据集。

9.根据权利要求7所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤②中，把实体I_k输入到预训练卷积神经网络中，即可生成对应的多层次总预训练特征即

其中为预训练网络中使用到的第i层特征，为了令各层特征能拼接在一起，若使用到的某层特征为卷积层特征，必须要先进行池化操作以消除空间信息，若使用到的某层特征为全连接层特征，则不必进行池化操作。

10.根据权利要求7所述的一种面向实体和用户画像的特征融合方法，其特征在于：步骤⑶所述的多层感知机MLP的各层维度随着深度增加相应降低，以满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要，并且该多层感知机MLP的输出层维度与文本特征的维度一致，在多层感知机MLP的隐藏层和输出层设置非线性激活函数，以增强表达能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国海洋大学，未经中国海洋大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910540846.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于联合时域频域特征的人体行为识别方法
下一篇：一种基于深度学习的柑橘病虫害智能诊断方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向实体和用户画像的特征融合方法在审

专利文献下载