[发明专利]一种用户标签的预测方法及系统有效

申请号：	202110822167.6	申请日：	2021-07-21
公开（公告）号：	CN113283235B	公开（公告）日：	2021-11-19
发明（设计）人：	姚娟娟;钟南山	申请（专利权）人：	明品云（北京）数据科技有限公司
主分类号：	G06F40/247	分类号：	G06F40/247;G06F40/30;G06N3/04;G06N3/08
代理公司：	上海汉之律师事务所 31378	代理人：	冯华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用户标签预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种用户标签的预测方法及系统，所述的用户标签的预测方法包括：获取用户文本集和预设的关键词库；通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵；将特征矩阵输入神经网络进行训练，获取预测模型；通过预测模型预测待处理的用户文本，获取预测的用户标签。通过设置关键词库，获取一用户文本中与关键词相匹配的近似词，确定与近似词相匹配的关键词以及确定关键词匹配的n维向量，并通过m个所述n维向量确定特征矩阵，提高了处理用户文本获取用户标签的速度和精度。

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种用户标签的预测方法及系统。

背景技术

用户标签是构成用户画像的核心因素，是将用户在平台内所产生的行为数据，分析提炼后生成具有差异性特征的形容词。即用户通过平台，在什么时间什么场景下做了什么行为，平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息或者可视化标签。随着用户行为的特异化和个性化，每个用户的用户标签也相应地存在差异，而基于用户文本的标签预测受限制于文本语义的深层次和多模态等问题，往往精确性较低。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用户标签的预测方法及系统，用于解决现有技术中的问题。

为实现上述目的及其他相关目的，本发明提供一种用户标签的预测方法，包括：

获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词；

通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数；

将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型；

通过预测模型预测待处理的用户文本，获取预测的用户标签。

可选的，包括：

定义L为关联度，关键词的n维向量为（X₁、……、X_i、……、X_n），近似词的n维向量为（Y₁、……、Y_i、……、Y_n）；

当（X₁、……、X_i、……、X_n）和（Y₁、……、Y_i、……、Y_n）不相等时，关联度的数学表达为：

当（X₁、……、X_i、……、X_n）=（Y₁、……、Y_i、……、Y_n）时，关联度为1。

可选的，将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；