[发明专利]基于多语言高效数据采集方法、计算机程序有效

专利信息
申请号: 201810028948.6 申请日: 2018-01-12
公开(公告)号: CN108153741B 公开(公告)日: 2021-10-15
发明(设计)人: 詹咏松;程国艮 申请(专利权)人: 中译语通科技股份有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F16/9536
代理公司: 北京万贝专利代理事务所(特殊普通合伙) 11520 代理人: 马红
地址: 100040 北京市石*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语言 高效 数据 采集 方法 计算机 程序
【说明书】:

发明属于计算机软件技术领域,公开了一种基于多语言高效数据采集方法、计算机程序,包括:关键字录入;识别输入语言类型,对文本多语言翻译;对多语言关键字分发;根据各子系统特定性能获取调度服务器任务,调用相关引擎进行业务爬取;网页分成新闻内容页,新闻列表页,过滤无效信息;新闻页面直接对链接获取新闻信息;新闻列表页,启用二级爬虫子系统递归,页面二次分析,获取新闻列表页,获取新闻页面,获取新闻;获取新闻内容去重;合法数据的数据结构化存储。本发明通过搜索引擎实现快速新闻采集功能,实现系统多语言自动采集;快速去重;实现快速负载均衡,并支持动态加载移除采集引擎;降低ip消耗,提高采集效率。

技术领域

本发明属于计算机软件技术领域,尤其涉及一种基于多语言高效数据采集方法、计算机程序。

背景技术

互联网数据采集需求越来越大,采集系统的高效和精确正在成为采集系统追求的目标。目前众多采集系统采用爬虫系统对网站数据进行直接采集。国内,国外采集多采用多套系统部署采集,采集方式采用通用采集或者模版化采集,对新闻类网站等进行数据采集。多套系统的部署增加了采购和运维成本,也造成系统复杂,很难对现有资源进行统一调配。不同网站内容重复率高,采集信息浪费严重。通用采集方式效率虽然高,但是错误率相对会更高,特别对于一些中小地方网站采集错误率会更大。模版化人工标注采集模式,准确率高,但是需要大量人工对每个网站进行人工定义规则,人工成本高。传统新闻采集系统针对各个新闻网站进行配置管理,针对境内外网站要做定向匹配,例如通过正则表达式进行精确匹配,针对网站二级域名或者栏目进行配置采集,传统采集方式需要花费大量的人力成本,系统部署和维护周期漫长。根据现有系统,采集全球30万新闻站点,维护站点成本超过300人月,服务器超过50台。现有的采集系统目前大部分设计为对新闻网站全量或者增量采集,客观性采集信息不全面,无法实现对内容的定向采集,需要占用大量的带宽和存储空间。此外不能对其他语言进行采集,随着中国走向国际化,对不同语言的采集也是迫切需求。传统人工匹配方式,很难实现大量全语种采集,一方面各语种人才难得,此外小语种人才很难有计算机基础实现人工配置。针对海外不同语言的采集,目前国内还是以中/英文为主,新闻采集没有涉及到海外多语言新闻的采集。针对海外葡萄牙,西班牙等多种语言(目前32种语言,可扩充)进行。针对内容采集重复和去重方式,传统方式通过新闻全文检索/内容指纹等方式对比进行对比判断重复,需要把内容全文放入内存,消耗大量内存和cpu,特别是大数量采集,对服务器资源消耗更大。通过url进行快速检索,可以降低对服务器的消耗。

综上所述,现有技术存在的问题是:现有的数据采集方法存在增加采购和运维成本,造成系统复杂,不同网站内容重复率高,采集信息浪费严重,错误率高,系统部署和维护周期漫长,对服务器资源消耗大。现有采集系统是针对不同采集内容,专门建立专属的采集系统,每增加一类采集内容,就需要单独开发部署一套新的采集系统。采集内容的不同,对采集软件的要求,能力,规模都有不同要求,这也是技术本身的制约,对不同采集类内容开发不同的采集系统。例如新闻资讯,一般是通过首页—列表页—内容页(多页),论坛内容,一般是需要注册用户登录,采集每个主题发帖,回复帖等,区别很大,再加上不同系统对反采集要求,数据结构化要求,特别是当采集量要求比较庞大时无法通过单一系统完成多重复杂任务。

发明内容

针对现有技术存在的问题,本发明提供了一种基于多语言高效数据采集方法、计算机程序。

本发明是这样实现的,一种基于多语言高效数据采集方法,所述基于多语言高效数据采集方法包括:

(1)关键字录入;

(2)识别输入语言类型,对文本多语言翻译;

(3)对多语言关键字分发;

(4)根据各子系统特定性能获取调度服务器任务,调用相关引擎进行业务爬取;

(5)网页分成新闻内容页,新闻列表页,过滤无效信息;

(6)新闻页面直接对链接获取新闻信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810028948.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top