[发明专利]用于URL分类的网页推荐系统及网页推荐方法有效
申请号: | 201610655941.8 | 申请日: | 2016-08-11 |
公开(公告)号: | CN106294755B | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 张昊峥;雷兵;朱志博 | 申请(专利权)人: | 上海携程商务有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/9535 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;谢琦 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了用于URL分类的网页推荐系统及网页推荐方法,本发明能够采用基本语言词库进行数据筛选过滤,提升了算法执行效率,采用权重计算方法获取带有权重的空间向量,采用分类算法获取URL分类信息,最后采用协同过滤算法实现相似内容URL的推荐。本发明能够以URL信息为基础,来快速有效的组织和分析海量的网站信息,帮助网站用户方便地获取其需要的信息和知识,实现服务提供商根据用户提供的网站信息来进行有效的归类并向用户提供并推荐更具个性化的服务。本发明提升了对网站分类操作时文本的可用度与精确度。有效的解决了网站上可能的垃圾广告信息造成的错误归类,降低了数据计算量,提高了计算效率以及准确性。 | ||
搜索关键词: | 用于 url 分类 网页 推荐 系统 方法 | ||
【主权项】:
1.一种用于URL分类的网页推荐方法,其特征在于,所述网页推荐方法包含:遍历URL信息,批量获取多个URL信息及对应的网页内容,并对于每个所述URL信息生成对应的待处理网页信息;对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表;每个所述保留分词表包含对应的所述待处理网页信息所有要求保留的词语;将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表;所述带有权重的空间向量表包含每个所述URL信息对应的每个所述要求保留的词语带有权重的空间向量的集合;所述URL分类表包含将所述带有权重的空间向量表中每个所述URL信息的所有所述带有权重的空间向量进行计算获得对应所述URL信息的分类信息的集合;当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有所述推荐的URL信息;当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有推荐的URL信息的步骤中包含:当输入的所述URL信息为一个新的URL信息时,获取所述新的URL信息对应的网页内容,进行预处理后生成对应的所述待处理网页信息;将所述待处理网页信息进行过滤操作,形成对应的所述保留分词表;将所述新的URL信息与对应的所述保留分词表进行计算获取对应的所述保留分词表中每个词语的带有权重的空间向量、所述新的URL信息的分类信息;更新所述带有权重的空间向量表、所述URL分类表;将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,获取所述新的URL信息的所有推荐的URL信息;当所述输入的URL信息为一个已存在于所述带有权重的空间向量表、所述URL分类表的URL信息时,将所述输入的URL信息在所述URL分类表的分类信息与所述URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,获取所述URL信息的所有推荐的URL信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携程商务有限公司,未经上海携程商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610655941.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于信息通信机柜的配线架
- 下一篇:一种新型通信机柜散热装置