[发明专利]用户特征的识别方法、装置、设备以及存储介质有效
申请号: | 202011281605.4 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112364663B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/23 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 特征 识别 方法 装置 设备 以及 存储 介质 | ||
本申请实施例提供了一种用户特征的识别方法、装置、设备以及存储介质。该方法通过获取用户的多个第一文本信息,第一文本信息包括第一文本内容和与第一文本内容对应的时间戳,并根据多个第一文本信息,确定用户的至少一个特征,再输出用户的至少一个特征,结合获取的与用户有关的多个第一文本内容和与每个第一文本内容对应的时间戳,来确定用户的至少一个特征,能够得到基于时间维度的特征,使得到的特征具有更强的表示能力。
技术领域
本申请实施例涉及数据处理技术领域,并且更具体地,涉及用户特征的识别方法、装置、设备以及存储介质。
背景技术
基于用户信息可对用户的特征进行识别,以便于为用户提供针对性的服务。其中,用户信息可以是一种时序文本,例如通过收集用户反馈、用户调研、用户行为、用户言论等得到用户信息。
目前,常将收集到的用户信息按照先后顺序进行拼接,再对拼接后的文本进行分析得到用户特征。
发明内容
本申请实施例提供了一种用户特征的识别方法、装置、设备以及存储介质。
第一方面,提供了一种用户特征的识别方法,包括:
获取用户的多个第一文本信息,第一文本信息包括第一文本内容和与第一文本内容对应的时间戳;
根据多个第一文本信息,确定用户的至少一个特征;
输出用户的至少一个特征。
在一种具体的实现方式中,根据所述多个第一文本信息,确定用户的至少一个特征,包括:
针对每个第一文本信息,将第一文本信息映射为文本向量序列,文本向量序列用于在向量空间中表征第一文本内容和与第一文本内容对应的时间信息;
根据多个第一文本信息对应的多个文本向量序列,确定用户的至少一个特征。
在一种具体的实现方式中,针对每个第一文本信息,将第一文本信息映射为文本向量序列,包括:
将第一文本信息的第一文本内容映射为内容向量序列,内容向量序列用于在向量空间中表征第一文本内容;
将第一文本内容对应的时间戳,按照预设的时间维度,映射为时间向量序列,时间维度包括年、月、日、星期、小时或分钟中的至少一种,时间向量序列用于在向量空间中表征第一文本内容在时间维度上的时间信息;
将内容向量序列和时间向量序列进行融合,得到文本向量序列。
可选的,根据多个第一文本信息,确定用户的至少一个特征,包括:
将多个第一文本信息输入预先训练的特征模型,得到用户的至少一个特征。
可选的,在将多个第一文本信息输入特征模型,得到用户的至少一个特征之前,该方法还包括:
获取第一训练数据集,第一训练数据集包括多个第一训练数据,第一训练数据包括多个第二文本信息和至少一个特征标签,第二文本信息包括第二文本内容和与第二文本内容对应的时间戳;
通过第一训练数据集训练特征模型。
可选的,在通过第一训练数据集训练特征模型之前,该方法还包括:
获取第二训练数据集,第二训练数据集包括多个第二训练数据,第二训练数据包括第三文本内容;
通过第二训练数据集训练文本模型,文本模型包括语义生成模块和文本预测模块,文本预测模块中的全连接层接收语义生成模块输出的第一语义向量和多个第二语义向量,第一语义向量包含多个第二语义向量对应的语义信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011281605.4/2.html,转载请声明来源钻瓜专利网。