[发明专利]一种在线更新兴趣信息的采集方法无效
申请号: | 201210266647.X | 申请日: | 2012-07-31 |
公开(公告)号: | CN102890704A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 万金朋 | 申请(专利权)人: | 万金朋 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400030 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种在线更新兴趣信息的采集方法,主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成;兴趣点挖掘中采用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容。本发明使订阅者在不进行海量网址搜索的情况下,实时掌握感兴趣的WEB信息,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。 | ||
搜索关键词: | 一种 在线 更新 兴趣 信息 采集 方法 | ||
【主权项】:
一种在线更新兴趣信息的采集方法,其特征在于,包括三个方法步骤:步骤1,建立兴趣信息网址库;步骤2,兴趣点挖掘:通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是:1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址;2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1),使用webclient或HttpWebRequest获取网址页面的编码方式;3)通过网页内容的编码分类处理获取网页源代码(S5)网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码4)网页源代码的过滤(S6)过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。5)新旧网页字符串的对比(S8)判断是否为第一次获取网页源代码(S7):若不是第一次获取,利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9);若是第一次获取网页源代码,则网页的全部汉字内容(S10)。6)在新增内容中查找客户感兴趣的关键词(S11);步骤3,信息发布:将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万金朋,未经万金朋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210266647.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种保健饮料及其制备方法
- 下一篇:脐橙酵素营养液及其制备方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置