大数据的热度在持续的升温,继云计算之后大数据又成为一大众所追捧的新星。俗话说的好,工欲善其事,必先利其器,要玩转大数据必不可少的就是平台,。

大数据平台是什么

以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。

目前大大发棋牌大发棋牌技巧技巧 公司 的大数据平台除了自研的,比较好用的就是CDH和ambari,这里大发棋牌大发棋牌技巧技巧 我 会详细的给大家介绍二大平台的特色。

1.CDH

Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。

专栏从CDH安装,核心组件impala、hive、kudu调参开始介绍。更深层次的进入CDH核心内容:用户资源分配,权限和安全,覆盖全面的实战教程。

共享集群;
按照业务或应用的规则划分资源队列,并分配给特定用户;
HDFS上存放各种数据,包括公共的、机密的;
安全认证:确保某个用户是自己声称的那个用户;
安全授权:确保某个用户只能做他允许的那些操作;
User:Hadoop用户,可以提交作业,查看自己作业状态,查看HDFS上的文件;
Service:Hadoop中的大发棋牌大发棋牌技巧技巧 服务 组件,包括:namenode,resourcemanager,datanode,nodemanager;

2.Ambari

Ambari是Apache大发棋牌大发棋牌技巧技巧 软件 基金顶级项目,它是一个基于web的大发棋牌大发棋牌技巧技巧 工具 ,用于安装、配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。

Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

专栏从ambari一键化安装,性能检测和压测全面的介绍ambari平台的特点。更深层次的介绍:用户资源分配,权限和安全,覆盖全面的实战教程。

3.二者的区别

详细对比情况如下:

出版商

hortonworks研发了Ambari和hdp的大数据分析集成平台。
cloudera研发了cloudera manger和cdh大数据分析集成平台。

稳定性

cloudera相对来说比较稳定。
ambari相对来说不稳定(页面打开速度慢)。

资源消耗

cloudera manager的server端Xmx是2G,agent是1G,但是有host monitor和service monitor总共大概1G。
ambari的server端Xmx是2G,metric的ams和hbase的env大概也就是2G。

集群重启

cloudera支持滚动重启(hdfs需要设计成ha,才能滚动重启)。
ambari支持滚动重启(hdfs需要设计成ha,才能滚动重启)。

二次开发

cloudera不支持。
ambari支持。

大发棋牌大发棋牌技巧技巧 服务 版本

cloudera较老。
ambari较新。

大发棋牌大发棋牌技巧技巧 服务 集成性

cloudera较弱。
ambari较强,支持es、redis、presto、kylin等。

体验效果

cloudera好。
ambari相对差。

安装过程

cloudera复杂。
ambari简单。

邮件报警

cloudera支持不好。
ambari支持很好。

安装包

cloudera是parcel包。
ambari是rpm包。

集群升级(一般来讲不要轻易升级集群)

cloudera不支持滚动升级大发棋牌大发棋牌技巧技巧 服务 。
ambari支持滚动升级大发棋牌大发棋牌技巧技巧 服务 (这个是ambari的优点,hdfs必须是ha)。

介绍完大数据平台后,大发棋牌大发棋牌技巧技巧 大发棋牌大发棋牌技巧技巧 我 们 总应该知道怎么去维护它,遇到问题了怎么去处理!

大数据平台谁去维护!遇到问题该找谁!

数据是大发棋牌大发棋牌技巧技巧 公司 最最重要的核心资产。随着业务的迅速发展,交易数据呈几何级增加,随之而来的是系统的不堪重负。业务部门、领导、甚至是大发棋牌大发棋牌技巧技巧 集团 老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句,紧接着系统开始罢工,内存溢出,宕机........简直就是噩梦。

遇到以上问题,应该找谁,谁去解决?????靠研发?靠业务?还是靠领导?或者基础运维???no这些都不是,只能靠大发棋牌大发棋牌技巧技巧 大发棋牌大发棋牌技巧技巧 我 们 大数据运维去解决。

大发棋牌大发棋牌技巧技巧 大发棋牌大发棋牌技巧技巧 我 们 首先要了解大数据运维这个职位有啥要求做什么的。来看看各大大发棋牌大发棋牌技巧技巧 公司 大数据运维工程师的招聘要求:

简单来说就是8个大方面:

集群管理:大数据平台hadoop hbase spark 等组件的搭建。
故障处理:可以精确定位问题,解决问题,处理问题;区分故障等级,优先处理影响业务性的故障。
容量管理:资源队列的管理;硬盘内存和cpu的扩容和管理。
变更管理:配置管理和发布管理;回滚。
安全权限管理:hive权限的控制;Kerberos安全控制Sentry控制。
性能调优:需要对各个组件有深刻的见解;不同组件的性能概念完全不一样。
压测大发棋牌大发棋牌技巧技巧 优化 :各个组件性能的压测;必须造出海量数据进行压测,这里可以通过脚本和大发棋牌大发棋牌技巧技巧 工具 。
监控巡检:各个组件的硬件资源和大发棋牌大发棋牌技巧技巧 软件 资源巡检。

以上技能从哪里学,看这里看这里看这里!!!

专栏都包含了哪些内容

大发棋牌大发棋牌技巧技巧 我 会从大数据运维角度出发,指导安装大数据平台,组件调优及默认配置修改去解决内存溢出,大发棋牌大发棋牌技巧技巧 服务 器宕机,kudu超时等业务无法处理的问题。

专栏内容架构

总共分为20篇文章,其中1篇理论介绍大数据平台,12篇CDH实践,7篇ambari实践。

CDH基础入门(1篇)+性能调优(4篇)+安全实战(7篇)
Ambari基础入门(1篇)+性能调优(1篇)+安全实战(5篇)

学习专栏大发棋牌大发棋牌技巧技巧 你 能收获什么

专栏以CDH和Ambari二个大数据平台为主,内容全都是笔者多年的工作中提炼出来的,不仅包含了大数据的基本知识,最主要的是大数据安全维领域的常见案例和实战大发棋牌技巧技巧 ,借以本专栏分享给大家,希望大家通过学习,能够解决在日常工作中所遇到的问题,提高自己的工作效率,收获满满。

最后的最后,希望每一个学习大发棋牌大发棋牌技巧技巧 我 专栏的小伙伴,能够完美的各种大数据平台相关问题,升职加薪!