[发明专利]基于文本信息确定基本属性特征的方法、装置及设备有效
申请号: | 202011394269.4 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112632994B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 刘泽城 | 申请(专利权)人: | 大箴(杭州)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/169;G06F16/35 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 信息 确定 基本 属性 特征 方法 装置 设备 | ||
本申请属于数据处理领域,公开了一种基于文本信息确定基本属性特征的方法、装置及设备,能够从网络中获取的关于用户的相关文本信息,利用语言识别模型进行语言识别得到用户文本特征向量,再对用户文本特征向量利用序列标注模型进行处理得到实体特征数据,以及对用户文本特征向量利用分类模型进行分类处理得到类别特征数据,将实体特征数据与类别特征数据进行整合后即可得到对应的用户的基本属性特征。这样的处理分析过程,能够简化基本属性特征获取的步骤,提高时间利用率。
技术领域
本申请涉及数据处理领域,特别是涉及一种基于文本信息确定基本属性特征的方法、装置及设备。
背景技术
用户的基本属性,例如姓名、性别、地址、年龄等,是用来分析用户特点的最基本的数据,一般对用户进行特征分析时,都需要使用这些基本属性数据。
但是,目前对于用户的基本属性的获取都是通过用户直接输入进行获取的,这样需要占用用户的时间,并且有的用户不愿意输入这些信息,就无法获得。
因此,如何根据网络上关于用户的相关文本信息得到用户的基本属性特征,成为目前亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种基于文本信息确定基本属性特征的方法、装置及设备。主要目的在于解决目前如何根据网络上关于用户的相关文本信息得到用户的基本属性特征的技术问题。
依据本申请的第一方面,提出了一种基于文本信息确定基本属性特征的方法,步骤包括:
通过网络获取用户的相关文本信息;
将所述用户的相关文本信息输入语言识别模型中进行处理,得到用户文本特征向量,其中,预先利用多个样本文本信息对GPT2模型进行训练得到能够识别文本信息中的文本特征向量的所述语言识别模型;
将所述用户文本特征向量输入序列标注模型中进行处理,得到实体特征数据,其中,预先构建能够识别文本特征向量中的实体特征的所述序列标注模型;
将所述用户文本特征向量输入分类模型中进行处理,得到类别特征数据,其中,预先构建能够识别文本特征向量中的类别特征的所述分类模型;
将所述实体特征数据与所述类别特征数据进行结合,得到用户的基本属性特征。
进一步地,在所述将所述用户的相关文本信息输入语言识别模型中进行处理,得到用户文本特征向量之前,所述方法还包括:
预先创建具有多个输入路径的GPT2模型;
为每个输入路径创建查询向量、键向量和值向量;
获取多个样本文本信息,为每个样本文本信息预先标记文本特征向量;
将所述样本文本信息通过输入路径进行输入,根据查询向量、键向量和值向量,为所述样本文本信息中的样本词语确定对应的样本查询向量、样本键向量和样本值向量;
将任一样本词语的样本查询向量与其他样本词语的键向量相乘,得到样本词语对应的注意力分值;
将所述样本词语对应的注意力分值与样本词语对应的样本值向量进行相乘后再进行求和处理,得到样本文本特征向量;
将所述样本文本特征向量与预先标记的文本特征向量进行比对,若比对不一致,则对创建的查询向量、键向量和值向量进行调整使得所述样本文本特征向量与预先标记的文本特征向量一致,否则将下一个样本文本信息进行输入处理;
当所有样本文本信息全部处理完成之后得到的GPT2模型作为语言识别模型。
进一步地,所述将所述用户的相关文本信息输入语言识别模型中进行处理,得到用户文本特征向量,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大箴(杭州)科技有限公司,未经大箴(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011394269.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置