[发明专利]一种文章采集的方法无效
申请号: | 201010618421.2 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102096705A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 曾文语;林雅珊 | 申请(专利权)人: | 南威软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 泉州市文华专利代理有限公司 35205 | 代理人: | 车世伟 |
地址: | 362000 福建省泉州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文章 采集 方法 | ||
1.一种文章采集的方法,其特征在于包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
2.根据权利要求1所述的一种文章采集的方法,其特征在于:所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式规则。
3.根据权利要求1所述的一种文章采集的方法,其特征在于:所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符串位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南威软件股份有限公司,未经南威软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618421.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于估计地层各向异性常数的模态色散的多频率反转
- 下一篇:车辆乘用的雷达感测