[发明专利]一种基于UCL的用户兴趣主题挖掘方法及装置有效
申请号: | 202010516041.1 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111651675B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 杨鹏;李超;季冬 | 申请(专利权)人: | 杨鹏 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ucl 用户 兴趣 主题 挖掘 方法 装置 | ||
1.一种基于UCL的用户兴趣主题挖掘方法,其特征在于,包括如下步骤:
(1)对待挖掘主题的网页文档进行数据清洗、实体识别和UCL标引,计算UCL中每个内容实体在UCL所表示文档中的语义重要程度,利用语义重要程度计算实体对于表现文档主题的贡献程度,从而将文档转换为向量表示;
(2)将用户搜索历史、浏览器浏览历史和浏览器书签转换为对应的文档向量,将其作为输入进行初始主题挖掘,对主题挖掘超参数进行初始化;然后将用户实时访问互联网中的内容产生的流式网络文档按时间分片,计算主题挖掘超参数转移矩阵,从而依次得到每个时间片的用户潜在兴趣主题模型;
(3)将当前搜索对应的历史查询信息融入搜索句中进行主题挖掘,得到用户搜索意图主题,包括:对用户搜索句进行分词和实体识别,得到搜索实体集合并获取与用户搜索语句相关联的历史文档;利用用户搜索实体在搜索句中的语义重要程度对历史文档进行过滤,从而得到搜索意图主题文档集合;对用户意图主题文档集合进行主题挖掘得到用户搜索意图主题;
计算搜索意图主题与用户潜在兴趣主题的相似度,选择相似度排序的前ε个兴趣主题作为用户兴趣主题,ε为设定的参数。
2.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,所述步骤(1)中根据如下公式计算实体对于表现文档主题的贡献程度:
其中WCWe,doc表示实体e对于表现文档doc主题的贡献程度,pwe,doc表示实体e对于UCL文档doc的语义重要程度,NDOC表示文档总数,I(pwe,i≥pwe,doc)为指示函数,表示统计pwe,i≥pwe,doc的文档个数。
3.根据权利要求2所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,根据如下公式计算实体对于UCL文档的语义重要程度:
其中freq(ce)为实体e的词频,n为UCL文档中实体总数,sj代表中心句,中心句总数为Z,I(ce∈sj)为指示函数,表示ce是否属于sj,α表示调节参数,取值范围为0~1。
4.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,所述步骤(2)中根据如下两个公式分别对主题挖掘超参数α和β进行初始化:
αt+μ=ωα·αt
βt+μ=ωβ·βt
其中超参数α和β分别为LDA主题模型中求解文档在主题上概率分布的参数和主题在词语上概率分布的参数,上标t表示t时刻,μ表示时间片的大小,转换矩阵ωα和ωβ如下:
其中ωα为K乘K的稀疏矩阵,simm,k表示时间片(t,t+μ)内出现的第m篇文档与上一时间片内的属于第k个主题的文档的语义相似度最大值;ωβ为N乘N的稀疏矩阵,WCWn,m表示第n个词语表现时间片(t,t+μ)中第m篇文档主题的贡献程度,N和K分别表示词语总数和主题总数,M为时间片(t,t+μ)内出现的文档总数。
5.根据权利要求1所述的一种基于UCL的用户兴趣主题挖掘方法,其特征在于,初始时刻超参数α和β确定方法为:对于初始时定义的所有K个主题,统计每个主题包含UCL文档的个数,将先验计数作为α的初始值;统计每个词出现在每个主题所代表的UCL文档中的个数,将先验计数作为β的初始值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨鹏,未经杨鹏许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010516041.1/1.html,转载请声明来源钻瓜专利网。