[发明专利]基于机器学习的微信公众号推荐方法及系统有效
申请号: | 201910392858.X | 申请日: | 2019-05-13 |
公开(公告)号: | CN110990711B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 张旭;梁汝锋;张传新;刘春阳;郑阳;刘巨安 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京蓝光汇智网络科技有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/958;G06Q50/00;G06N20/00 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 史霞 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 公众 推荐 方法 系统 | ||
1.基于机器学习的微信公众号推荐方法,其特征在于,包括:
为训练文本标注标签,获取训练文本的关键词及关键词向量,对关键词向量进行聚类计算,获得簇,并确定簇的中心向量;
采集公众号文本,获取公众号文本的关键词及关键词向量,根据关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
根据目标用户的历史行为确定目标用户的喜好标签;
从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户;
所述历史行为包括目标用户的阅读行为,获取目标用户的历史已读文本,获取关键词及关键词向量,根据关键词向量与中心向量的相似度确定历史已读文本对应的标签,作为喜好标签;
获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括:对文本进行分词,用Skip-gram模型将各词语转化为词向量,然后用TF-IDF方法提取关键词,即获得关键词及关键词向量;
在提取关键词时,计算关键词的TF-IDF值;
计算关键词向量与中心向量的相似度;
其中,以各关键词的TF-IDF值为权值,将公众号文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为公众号文本与该标签的匹配权重,若匹配权重符合第一设定规则,则判断该公众号文本属于该标签;
以各关键词的TF-IDF值为权值,将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为目标用户对该标签的喜好权重,若喜好权重符合第二设定规则,则将该标签作为喜好标签;
选取测试文本并标注标签,获取测试文本的关键词及关键词向量及TF-IDF值,计算关键词向量与中心向量的相似度值,确定平均误差;
所述第一设定规则包括:将各标签的匹配权重除以最大匹配权重,若所得结果大于1-平均误差,则判断该文本属于该标签;
所述第二设定规则包括:将各标签的喜好权重除以最大喜好权重,若所得结果大于1-平均误差,则将该标签作为喜好标签。
2.如权利要求1所述的基于机器学习的微信公众号推荐方法,其特征在于,若获得多个簇,则确定多个簇的中心向量;
分别计算关键词向量与各中心向量的相似度值,取最大相似度值与TF-IDF值相乘。
3.如权利要求1所述的基于机器学习的微信公众号推荐方法,其特征在于,还包括:
根据历史已读文本的阅读日期,利用时间衰减函数为历史已读文本分配时间权重;
以时间权重为权值,计算喜好权重在设定时间范围内的加权平均值;
将各标签的喜好权重的加权平均值除以最大加权平均值,若所得结果大于1-平均误差,则将该标签作为喜好标签。
4.如权利要求1所述的基于机器学习的微信公众号推荐方法,其特征在于,使用KMeans方法对关键词向量进行聚类,然后计算各关键词向量轮廓系数,并舍弃轮廓系数低于设定阈值的关键词向量;
所述轮廓系数为簇间不相似度与簇内不相似度的差除以簇间不相似度和簇内不相似度之间的大者;
簇内不相似度为关键词向量至簇内其他关键词向量的平均欧氏距离;
簇间不相似度为关键词向量至到其他簇的关键词向量的平均欧氏距离的最小值。
5.基于机器学习的微信公众号推荐系统,其特征在于,包括:
数据采集装置,其用于采集公众号文本;
文本处理装置,其用于对公众号文本进行分词;
模型训练装置,其将经过标签标注的训练文本的关键词向量进行聚类,获得簇,并确定簇的中心向量;
标签分析装置,其根据公众号文本的关键词向量与中心向量的相似度确定公众号文本对应的标签,获得标签分析结果;
行为统计装置,其用于记录目标用户的历史行为;
喜好分析装置,其用于根据目标用户的行为,获得喜好标签;
推荐装置,其用于从标签分析结果中选取与喜好标签相关的标签,将相关的标签对应的公众号文本推荐给目标用户;
所述历史行为包括目标用户的阅读行为,获取目标用户的历史已读文本,获取关键词及关键词向量,根据关键词向量与中心向量的相似度确定历史已读文本对应的标签,作为喜好标签;
获取训练文本、公众号文本或历史已读文本的关键词及关键词向量的方法包括:对文本进行分词,用Skip-gram模型将各词语转化为词向量,然后用TF-IDF方法提取关键词,即获得关键词及关键词向量;
在提取关键词时,计算关键词的TF-IDF值;
计算关键词向量与中心向量的相似度;
其中,以各关键词的TF-IDF值为权值,将公众号文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为公众号文本与该标签的匹配权重,若匹配权重符合第一设定规则,则判断该公众号文本属于该标签;
以各关键词的TF-IDF值为权值,将历史已读文本的所有关键词向量与同一标签对应的中心向量的相似度值加权平均,将计算结果作为目标用户对该标签的喜好权重,若喜好权重符合第二设定规则,则将该标签作为喜好标签;
选取测试文本并标注标签,获取测试文本的关键词及关键词向量及TF-IDF值,计算关键词向量与中心向量的相似度值,确定平均误差;
所述第一设定规则包括:将各标签的匹配权重除以最大匹配权重,若所得结果大于1-平均误差,则判断该文本属于该标签;
所述第二设定规则包括:将各标签的喜好权重除以最大喜好权重,若所得结果大于1-平均误差,则将该标签作为喜好标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京蓝光汇智网络科技有限公司,未经国家计算机网络与信息安全管理中心;北京蓝光汇智网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910392858.X/1.html,转载请声明来源钻瓜专利网。