[发明专利]实现观点搜索引擎排序的方法有效
申请号: | 200810057879.8 | 申请日: | 2008-02-20 |
公开(公告)号: | CN101515269A | 公开(公告)日: | 2009-08-26 |
发明(设计)人: | 缪庆亮;戴汝为;李秋丹;王春恒 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 周国城 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 观点 搜索引擎 排序 方法 | ||
1.一种实现观点搜索引擎排序的方法,其特征在于,该方法包括:
步骤S1:使用网络爬虫对用户评论网页进行抓取,对抓取的网页进行预处理,从预处理后的网页中提取出用户评论信息;
步骤S2:使用数据挖掘技术从该用户评论信息中提取产品的属性,并确定属性评论信息的极性,构建评论信息库;
步骤S3:转换该评论信息库中所有用户评论信息文档的格式,构建用户评论信息文档的层次结构,该用户评论信息文档的层次结构用于表示用户评论信息中的元数据信息和用户评论信息的具体内容,在用户评论信息的具体内容表示上以用户评论信息中含有产品属性和观点极性的评论句子为单位,评论句子包括该句子含有的产品属性、观点极性和句子的具体内容;
步骤S4:对转换以后的用户评论信息建立倒排序索引,该倒排序索引用于存储用户评论信息中的元数据,同时索引了评论句子的具体内容,该倒排序索引是建立在句子层次上的索引,而不是在用户评论文档层次上的索引;
步骤S5:以评论信息的相关性、评论信息的品质因子、评论信息的时间维度信息为关键词对建立倒排序索引的用户评论信息进行排序;
步骤S6:对搜索出的用户评论信息进行统计分析,将用户评论信息随时间变化的趋势信息,以及对于某种产品属性的正反面评价对比信息进行可视化。
2.根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S1中所述对用户评论网页进行抓取,首先获得电子商务网站的URL网址,然后利用抓取器采用宽度优先抓取的策略对这些电子商务网站进行抓取。
3.根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S1中所述提取出用户评论信息采用RoadRunner算法对抓取的用户评论信息网页进行提取。
4.根据权利要求1所述的实现观点搜索引擎排序的方法,其特征在于,步骤S2中所述数据挖掘技术为association rule mining技术,所述确定属性评论信息的极性是确定用户对该属性的评论是正面的还是反面的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810057879.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于图像的个性化真实感虚拟人物造型方法
- 下一篇:显示卡及其散热方法