现在的位置: 首页资讯>正文

开源项目Alluxio进军中国市场,数据也虚拟了?

2018年12月07日 作者: 暂无评论 142+ 0

起源
Alluxio源自于加州大学伯克利AMP实验室(也是Apache Mesos和Apache Spark的发源地)的博士研究项目,自2013年4月开源以来,已有超过100个组织机构的近千名贡献者参与其研究、使用以及开发中,包括阿里巴巴、Alluxio、百度、卡耐基梅隆大学(CMU)、京东、IBM、Intel、南京大学,Red Hat、腾讯、加州大学伯克利分校(UC Berkeley)和Yahoo等。

“历史上的分布式存储系统,基本都是间接性创新,比如更快、更便宜、更容易使用,”Alluxio创始人兼CEO李浩源博士表示,而Alluxio是一套新逻辑上的存储系统——相当于一个中间虚拟层,介于计算框架和现有的存储系统之间。

 

原理
“用户数据依旧存放在原来的各类存储系统中(如Amazon S3,Microsoft Azure,OpenStack Swift,Apache HDFS,Ceph,IBM Cleversafe, OSS),Alluxio提供与各个存储对接的驱动程序,通过统一的数据访问接口向上对接计算框架(如Apache Spark,Presto,TensorFlow)。此外相对于最初的数据存储系统,Alluxio贴近计算,利用分布式的管理内存或者SSD等存储资源构成一层计算的缓存层,对计算任务起到加速的作用并减少读写磁盘。

对于用户而言,Alluxio在做让数据标准化的事情。数据消费者如大数据分析或者机器学习算法可以不用关心数据原本在何处如何存放(云端还是专用存储设备),只需要连接上Alluxio就可以打通数据通路。”李浩源博士告知。

就好比虚拟机,虚拟机的逻辑是提供虚拟化的计算资源,而Alluxio则提供虚拟化了的数据。

李浩源表示,这样一来,Alluxio有几个优势:

  • 第一,应用层很容易访问混合云上的数据。将来企业用数据很可能有是一种混合的部署,一部分在公有云上(比如阿里云, 腾讯云, 华为云等)以降低成本,部分核心数据在专用存储设备上(比如EMC ECS,IBM Cleversafe,NetApp NFS)。现在Alluxio提供了统一的数据访问界面之后,可以更加简化而高效的读取混合云而避免复杂的数据迁移以及计算驱动的数据ETL。
  • 第二,性能提升。新一代存储架构的一个趋势是将存储、计算分离的,Alluxio可以在此基础上,通过算法调度数据,让热数据离计算很近,从而提升计算效率。
  • 第三,统一后,可以更有效的进行数据管理。尤其是应用在机器学习、AI等需要大量数据的场景中,Alluxio可以将性能提升几倍到十几倍。

 

应用

根据公开资料,百度采用Alluxio使他们数据分析流水线的吞吐量提升了30倍。 巴克莱银行使用Alluxio将他们的作业分析的耗时从小时级降到秒级。李浩源补充:“很多企业客户利用Alluxio下面跑对象存储,上层跑AI、机器学习应用,由于Alluxio解决了此前的架构、生态系统问题,可以让上层任何应用都能访问对象存储,目前有应用在反欺诈、手机导航路线规划、电商推荐系统等场景。”

据悉,Alluxio分开源社区版和付费企业版。企业版根据不同地区、客户使用的节点情况收取年费,在欧美市场客单价在几十万到百万美元规模,客户多集中在金融、电信、电商等行业。

而Alluxio公司方面,团队大部分在美国。已经于2015年获得750万美元A轮融资,早期投资人包括Andreessen Horowitz 等,之后会发力中国市场。

 

热门推荐:

Intel RealSense深度摄像头D400系列“更便捷的秘密”的等你来发现

Analog Devices EVAL-ADXL362评估板给开发设计者更多选择

Cypress Semiconductor PSoC6 BLE开发套件,美好的设计即将发生

STMicroelectronics VL53L1X飞行时间测距传感器,绝对测距无惧颜色和反射

NXP i.MX 8MQuad评估套件MCIMX8M-EVK ,一款开箱即用的高性能开发工具

英飞凌IM69D120和IM69D130 XENSIV MEMS麦克风,为低失真和高信噪比而设计

 

原文地址:http://www.eeboard.com/news/alluxio-china/

搜索爱板网加关注,每日最新的开发板、智能硬件、开源硬件、活动等信息可以让你一手全掌握。推荐关注!

【微信扫描下图可直接关注】

发表评论