Findhy's Blog

Art is long, Life is short.

YARN,Hadoop平台的操作系统

| Comments

YARN是Hadoop2.0版本推出的全新数据处理平台。通过YARN,用户可以在Hadoop平台中根据不同的应用场景选择不同的计算框架(MR、TEZ等),而且可以同时处理同一批数据。

YARN的目标

  • 伸缩性:不再局限于MapReduce,可以集成其它实时性、流处理等计算模型
  • 效率:有效的资源管理和性能预测
  • 资源共享:资源共享与合理分配

应用情况

Hadoop2.0加入YARN后与1.0比较,如下图:

YARN从2012年9月开始在Yahoo!测试,并且从2013年1月开始已经在生产环境部署超过30000个节点,处理数据325PB。最近Microsoft, EBay, Twitter and Xing等商业公司也已经开始基于YARN来开发框架。

伸缩性

YARN将原来的MapReduce抽象为两层,资源管理和计算引擎,资源管理部分相当于Hadoop平台的操作系统,负责资源的分配和协调。并且可以在这个操作系统上面部署多种计算引擎。

效率&共享

YARN允许在一个集群上运行多个计算引擎,数据和CPU、IO等资源都是共享的,由YARN来协调资源的分配和利用,它有这些特点:

  • 资源管理和监控
  • 多租户
  • 安全
  • 高可用
  • 灾难恢复

        original link:
        <a href='http://findhy.github.io/blog/2014/03/20/yarn/'>http://findhy.github.io/blog/2014/03/20/yarn/</a><br/>
        written by <a href='http://findhy.github.io'>Findhy</a>
        &nbsp;posted at <a href='http://findhy.github.io'>http://findhy.github.io</a>
        </p>

Comments