[发明专利]一种在线更新兴趣信息的采集方法无效

专利信息
申请号: 201210266647.X 申请日: 2012-07-31
公开(公告)号: CN102890704A 公开(公告)日: 2013-01-23
发明(设计)人: 万金朋 申请(专利权)人: 万金朋
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 400030 重*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种在线更新兴趣信息的采集方法,主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成;兴趣点挖掘中采用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容。本发明使订阅者在不进行海量网址搜索的情况下,实时掌握感兴趣的WEB信息,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。
搜索关键词: 一种 在线 更新 兴趣 信息 采集 方法
【主权项】:
一种在线更新兴趣信息的采集方法,其特征在于,包括三个方法步骤:步骤1,建立兴趣信息网址库;步骤2,兴趣点挖掘:通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是:1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址;2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1),使用webclient或HttpWebRequest获取网址页面的编码方式;3)通过网页内容的编码分类处理获取网页源代码(S5)网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码4)网页源代码的过滤(S6)过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。5)新旧网页字符串的对比(S8)判断是否为第一次获取网页源代码(S7):若不是第一次获取,利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9);若是第一次获取网页源代码,则网页的全部汉字内容(S10)。6)在新增内容中查找客户感兴趣的关键词(S11);步骤3,信息发布:将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万金朋,未经万金朋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210266647.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top