您好,欢迎访问代理记账网站
移动应用 微信公众号 联系我们

咨询热线 -

电话 15988168888

联系客服
  • 价格透明
  • 信息保密
  • 进度掌控
  • 售后无忧

海量数据分布式存储技术-作业二

  1. 一个Hadoop集群中的节点主要有哪些?

  2. Hadoop具有哪些特性?

  3. Hadoop生态系统以及每个部分的具体功能是什么?

  4. fs.default.name是在那个文件中设置的?

  5. 列举单机模式和伪分布模式的异同点。

1、解:

一个基本的Hadoop集群中的结点主要有以下这些:

NameNode:负责协调集群中的数据存储

DataNode:存储被拆分的数据块

JobTracker:协调数据计算任务

TaskTracker:负责执行由JobTracker指派的任务

SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息

2、解:

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,具有以下特性:

高可靠性;

高效性;

高可扩展性;

高容错性;

成本低;

可运行在Linux平台上;

支持多种编程语言。

3、解:

Hadoop生态系统主要包括了HDFS、YARN、ZooKeeper、Hbase、Flume、Sqoop、MapReduce、Tez、Spark、Hive、Pig、Oozie、Ambari等。

HDFS是Hadoop项目中最为基础的存储部分,参照了谷歌的GFS,全称是Hadoop Distributed File System。为Hadoop提供了分布式文件系统。

YARN,Yet another Resource Negotiator,另一种资源协调者。YARN作为Hadoop里面的资源管家,负责集群中资源管理以及调度的功能。

ZooKeeper,用于协调任务的进行,提供分布式协调一致性服务。

Hbase,分布式列族数据库。Hbase使用了HDFS作为底层存储,存储了非结构化的数据。

Flume,是高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。

Sqoop,主要用于Hadoop与传统的数据库之间进行数据交互。

MapReduce,是一种计算模型。MapReduce将作业分成两个部分,即Map部分和Reduce部分。Map部分对于任务进行划分,将任务划成子任务,发布给不同的机器进行对应处理;Reduce部分是从各个节点中回收Map处理过的数据,然后进行聚合得到最终结果。MapReduce并不适合所有的任务,例如有些任务无法划分成MapReduce或者是MapReduce的难度过大,因此Hadoop还引入了其他计算模型。

Tez,是Hadoop运行在YARN之上的下一代Hadoop查询处理框架。

Spark,是类似于Hadoop MapReduce的计算框架。Spark提供了Spark Core、Spark Streaming、Spark SQL、GraphX等计算模式,且使用了内存保留中间结果,提高了计算效率。

Hive,Hadoop上的数据仓库,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Pig,Hadoop数据操作的客户端里的一个数据分析引擎,采用了一定的语法操作HDFS。

Oozie,是Hadoop中的Java Web应用程序,运行在Java Servlet容器中。Oozie工作流将放置在控制依赖DAG中的一组动作,把多个MapReduce任务组合到一个逻辑工作单元中,从而完成更大的任务。

Ambari,用于创建、管理、监视Hadoop整个生态圈的工具。

4、解:

hadoop安装路径的conf文件夹下的core-site.xml文件。

5、解:

相同点:都可以进行Hadoop操作;都具有NameNode。

不同点:

单机模式不需要更改配置文件,只有单个Java进程,没有DataNode;

伪分布模式需要更改配置文件,运行了多个Java进程,在本机上包含了DataNode。


分享:

低价透明

统一报价,无隐形消费

金牌服务

一对一专属顾问7*24小时金牌服务

信息保密

个人信息安全有保障

售后无忧

服务出问题客服经理全程跟进