[发明专利]国际贸易数据管理系统在审
申请号: | 201810081263.8 | 申请日: | 2018-01-29 |
公开(公告)号: | CN108037917A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 庞振环;徐诚;崔智杰 | 申请(专利权)人: | 上海腾道信息技术有限公司 |
主分类号: | G06F8/30 | 分类号: | G06F8/30;G06F17/30 |
代理公司: | 上海海贝律师事务所 31301 | 代理人: | 范海燕 |
地址: | 201800 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 国际贸易 数据管理 系统 | ||
本发明公开了一种国际贸易数据管理系统,采用HDFS分布式文件存储系统,处理超大文件,流式的访问数据,一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求;本发明提供的国际贸易数据管理系统,HDFS的设计建立在更多地响应“一次写入、多次读写”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。
技术领域
本发明涉及一种数据处理系统,尤其涉及一种国际贸易数据管理系统,应用在国际贸易领域。
背景技术
在国际贸易领域,国家与国家之间的每一笔贸易往来都是有交易记录的。在现代化的国际贸易规则下,国家之间的贸易日益频繁,每天成千上万的贸易记录所形成的数据是海量的。而且贸易记录数据是以不同格式不同语言储存在各个国家的不同机构,造就了此类数据不仅数据量大,数据结构非标准化,语言多样化等特点。有效科学地组织管理国际贸易的交易记录数据一直是该领域里的难点。挖掘贸易数据背后的商业价值更是市场上一直追逐的目标。
针对目前多国多语言多数据结构的国际贸易记录数据,数据的存储、整合、检索都面临着诸多挑战。主要体现在以下三方面:
a.跨语言的文本检索。传统的检索方式在不同语言的记录数据中只能用文本自身的语言进行检索。无法做到一种语言检索全部的数据。
b.现有的贸易记录数据中,仅有对本次交易的产品描述或者产品的HS编码(TheHarmonization System Code)。无法明确指出具体的产品名称或者产品关键字。当根据产品关键词进行检索时,检索结果不够精确,结果噪声大。
c.各国数据的关联性很低,仅仅能通过公司名称、6位HS编码进行关联。但是,公司名称由于各方书写习惯和格式要求不一,一个公司会有多种写法,通过公司名称进行关联的效率明显降低。6位HS编码由于是国际通用的,所以同一HS编码的关联结果是准确的。但是,6位的HS编码所代表的产品范围很广,所以,即使通过6位HS编码准确关联,实际的应用价值也不是很大。所以,寻找合适的关联字段,整合各国各语言的数据是挖掘贸易交易数据的难点和重点。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种国际贸易数据管理系统,实现精确多国、多语种海量贸易记录的信息检索,其中,具体实现方案为:
采用HDFS分布式文件存储系统,处理超大文件,流式的访问数据,一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。
上述的国际贸易数据管理系统,其中:采用Hadoop和Spark的MapReduce技术框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千台商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。
上述的国际贸易数据管理系统,其中:基于一个快速、高层次的屏幕抓取和web抓取框架(Scrapy),建立了分布式爬虫系统,自动提取网页的开放数据信息,包括网站地址、联系人信息、电话及电子邮件和企业信息。
上述的国际贸易数据管理系统,其中:通过利用基于统计的自然语言技术,包括分词、自动翻译,完成对多种语言文本数据的产品关键词提取。
上述的国际贸易数据管理系统,其中:通过采用智能邮件列表过滤和用户行为数据分析技术,动态分配邮件群发通道。
本发明相对于现有技术具有如下有益效果:
本项目的信息检索系统是基于Elasticsearch(5.6.3)平台,用30万条贸易记录作为测试数据集评估平台性能,表现如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海腾道信息技术有限公司,未经上海腾道信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810081263.8/2.html,转载请声明来源钻瓜专利网。