[发明专利]基于多语言高效数据采集方法、计算机程序有效
申请号: | 201810028948.6 | 申请日: | 2018-01-12 |
公开(公告)号: | CN108153741B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 詹咏松;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/9536 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 高效 数据 采集 方法 计算机 程序 | ||
1.一种基于多语言高效数据采集方法,其特征在于,所述基于多语言高效数据采集方法包括:
(1)关键字录入;
(2)识别输入语言类型,对文本多语言翻译;
(3)对多语言关键字分发;
(4)根据各子系统性能获取调度服务器任务,调用相关引擎进行业务爬取;
(5)网页分成新闻内容页,新闻列表页,过滤无效信息;
(6)新闻页面直接对链接获取新闻信息;
(7)新闻列表页,启用二级爬虫子系统递归,页面二次分析,获取新闻列表页,获取新闻页面,获取新闻;
(8)获取新闻内容去重;
(9)合法数据的数据结构化存储;
所述识别输入语言类型,对文本多语言翻译具体包括:
(1)通过字符集判断输入语言版本;
(2)通过翻译引擎对录入语言进行翻译;
1)通过判定的输入语言版本,通过管道传输给机器翻译引擎,返回关键字集合记录集合,每个记录集合包含语言种类和翻译的目标词汇;
2)如果记录集合为空,相应翻译出现异常;
所述对多语言关键字分发具体包括:
(1)业务调度任务服务接收爬取业务,加入任务队列;
(2)根据语言版本,调度任务根据策略把任务分配;
(3)中文关键字分配给支持中文的搜索引擎,英文关键字分配给支持英文的搜索引擎,日文关键字分配给支持日文的搜索引擎goo;
所述获取新闻内容去重具体包括:
(1)提取将要采集新闻的url;
(2)对新闻url进行hash编码;
1)对同一个网站,不同url爬取内容分散到不同的服务器,固定一个静态变量a,初始值为1;
2)建立新变量W,通过对网站的url加上变量a,W=hash(url)+a;
3)a=a+1,如果a超过阈值L,则a=a mod(L);
(3)根据采集引擎个数,对hash编码W根据存活采集引擎个数取余,根据余数分配到相应的采集引擎;
1)向分发服务器发出alive信号,分发服务器动态加载配置;
2)减少采集服务器,发出close信号;
(4)引擎作为内存一级队列列表,语言版本作为二级队列,新闻url作为三级队列;
(5)根据url的hash编码取余找到对应引擎的队列;
(6)在引擎队列下,根据语言版本找到相应队列;
(7)对url的hash编码对应语言队列在内存中进行检索;
(8)检索到,放弃新闻采集,进行下一条新闻url提取,重复执行(1);
(9)没有检测到,多个采集引擎对hash值进行按存活采集引擎数量进行取余操作,根据余数分配到对应的采集引擎,添加hash数值到对应引擎的队列,增加时间戳,采集新闻内容,进行结构化存储,并对采集内容通过hash算法进行指纹提取,作为内容验证内容;
(10)对超过阈值时间的hash数值清理,回收内存;
(11)对内存监控,空闲内存低于预定阈值,对各队列进行强制回收释放,释放时间最长的hash值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810028948.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能识别英文图像翻译方法
- 下一篇:一种医学英语翻译装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置