[发明专利]一种用户标签的预测方法及系统有效
申请号: | 202110822167.6 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113283235B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 姚娟娟;钟南山 | 申请(专利权)人: | 明品云(北京)数据科技有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 102400 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 标签 预测 方法 系统 | ||
本发明提供一种用户标签的预测方法及系统,所述的用户标签的预测方法包括:获取用户文本集和预设的关键词库;通过关键词获取一用户文本中的各个近似词,按照关联度的大小,获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵;将特征矩阵输入神经网络进行训练,获取预测模型;通过预测模型预测待处理的用户文本,获取预测的用户标签。通过设置关键词库,获取一用户文本中与关键词相匹配的近似词,确定与近似词相匹配的关键词以及确定关键词匹配的n维向量,并通过m个所述n维向量确定特征矩阵,提高了处理用户文本获取用户标签的速度和精度。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种用户标签的预测方法及系统。
背景技术
用户标签是构成用户画像的核心因素,是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的形容词。即用户通过平台,在什么时间什么场景下做了什么行为,平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息或者可视化标签。随着用户行为的特异化和个性化,每个用户的用户标签也相应地存在差异,而基于用户文本的标签预测受限制于文本语义的深层次和多模态等问题,往往精确性较低。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用户标签的预测方法及系统,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本发明提供一种用户标签的预测方法,包括:
获取用户文本集和预设的关键词库,所述用户文本集中包括多个用户文本,所述关键词库包括多个关键词;
通过关键词获取一用户文本中的各个近似词,按照关联度的大小,获取排名前m的近似词所对应的关键词,并确定所述对应的关键词匹配的n维向量,通过m个所述n维向量确定特征矩阵,其中,m和n均为正整数;
将多个用户文本分别对应的特征矩阵输入神经网络进行训练,获取预测模型;
通过预测模型预测待处理的用户文本,获取预测的用户标签。
可选的,包括:
定义L为关联度,关键词的n维向量为(X1、……、Xi、……、Xn),近似词的n维向量为(Y1、……、Yi、……、Yn);
当(X1、……、Xi、……、Xn)和(Y1、……、Yi、……、Yn)不相等时,关联度的数学表达为:
当(X1、……、Xi、……、Xn)=(Y1、……、Yi、……、Yn)时,关联度为1。
可选的,将获取的用户标签与m个n维向量相匹配,获取关联度小于1的各个近似词,并确定为近似词集;
获取一用户标签的各个近似词集,并从各个所述近似词集中确定交集;
将所述交集对应的近似词更新为所述关键词库中的关键词。
可选的,包括:
通过更新后的关键词库中的关键词,确定用户文本中更新后的各个近似词汇;
按照关联度的大小,获取排名前m的近似词所对应的更新后的关键词,并确定所述更新后的关键词匹配的n维向量,通过m个所述n维向量确定更新后的特征矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明品云(北京)数据科技有限公司,未经明品云(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110822167.6/2.html,转载请声明来源钻瓜专利网。