[发明专利]用户兴趣识别方法、装置及计算机可读存储介质有效

申请号：	201710749088.0	申请日：	2017-08-25
公开（公告）号：	CN107391760B	公开（公告）日：	2018-05-25
发明（设计）人：	王健宗;黄章成;吴天博;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06K9/62;G06Q30/02
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练样本测试样本文本数据用户兴趣最优模型计算机可读存储介质逻辑回归模型预设算法主题分类可识别用户迭代算法回归模型计算逻辑潜在客户人工标注识别装置准确定位话题帮助
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用户兴趣识别方法，其特征在于，所述用户兴趣识别方法包括以下步骤：

获取训练样本和测试样本，其中，所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的；

利用第一预设算法分别提取所述训练样本和所述测试样本的特征，并根据所述训练样本的特征，通过迭代算法计算出逻辑回归模型的最优模型参数，训练出含最优模型参数的逻辑回归模型；

根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线，并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价，训练出第一主题分类器；

利用所述第一主题分类器对所述文本数据进行分类，确定所述文本数据所属的主题，并根据所述含最优模型参数的逻辑回归模型计算所述文本数据所属主题的得分；

根据所述得分和第二预设算法计算撰写所述文本数据的用户对所述主题感兴趣的信心分，根据所述信心分识别所述用户的兴趣；

其中，所述第一预设算法为字节4元语法Byte 4-gram算法；

所述第二预设算法的计算公式为：

k j = 10 m a x ( TN j ) - m i n ( TN j ) , x j 0 = m e d i a n ( TN j ) , ]]>

s ( u i , topic j , TN i j ) = TN i j * A v g ( u i , topic j ) 1 + e - k j * ( TN i j - x j o ) , ]]>

其中，TNj为所有用户对主题topicj感兴趣的文本数，xj0为TNj的中位数，TNij为用户ui发表的关于主题topicj的微博数，s(ui,topicj,TNij)为用户ui对所述主题topicj感兴趣的信心分，Avg(ui,topicj)为用户ui在主题topicj上的平均得分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710749088.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载