[发明专利]一种在线更新兴趣信息的采集方法无效

申请号：	201210266647.X	申请日：	2012-07-31
公开（公告）号：	CN102890704A	公开（公告）日：	2013-01-23
发明（设计）人：	万金朋	申请（专利权）人：	万金朋
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	400030 重***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种在线更新兴趣信息的采集方法，主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成；兴趣点挖掘中采用字符串对比算法，将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，获取到网页更新的内容。本发明使订阅者在不进行海量网址搜索的情况下，实时掌握感兴趣的WEB信息，减少投标企业进行招投标进行信息搜索时的工作量，使更多的优秀供应商参与到招投标工作中来，使招投标工作更加公正、公开、透明。
搜索关键词：	一种在线更新兴趣信息采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种在线更新兴趣信息的采集方法，其特征在于，包括三个方法步骤：步骤1，建立兴趣信息网址库；步骤2，兴趣点挖掘：通过网页源码分析，对网址库中的各类网址进行动态检测，获取其更新信息，其步骤是：1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址；2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1)，使用webclient或HttpWebRequest获取网址页面的编码方式；3)通过网页内容的编码分类处理获取网页源代码(S5)网页内容有UTF8、GB2312等多种编码，判断网页的编码方式后获取网页源代码4)网页源代码的过滤(S6)过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。5)新旧网页字符串的对比(S8)判断是否为第一次获取网页源代码(S7)：若不是第一次获取，利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，内容相同的忽略，内容不同的记录下来；当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9)；若是第一次获取网页源代码，则网页的全部汉字内容(S10)。6)在新增内容中查找客户感兴趣的关键词(S11)；步骤3，信息发布：将更新的兴趣点信息重新编辑后，通过短信、邮件等方式实时地分发给订阅者。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于万金朋，未经万金朋许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210266647.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种在线更新兴趣信息的采集方法无效

专利文献下载