浅谈Hadoop是什么及其学习路线-html教程-PHP中文网

浅谈Hadoop是什么及其学习路线

巴扎黑

发布： 2017-03-14 09:46:29

原创

1730人浏览过

hadoop实现了一个分布式文件系统(hadoopdistributedfilesystem)，简称hdfs。hdfs有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据，适合那些有着超大数据集(largedataset)的应用程序。hdfs放宽了(relax)posix的要求，可以以流的形式访问(streamingaccess)文件系统中的数据。
　　hadoop的框架最核心的设计就是：hdfs和mapreduce。hdfs为海量的数据提供了存储，则mapreduce为海量的数据提供了计算。一句话来讲hadoop就是存储加计算。
　　hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，dougcutting解释hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。
　　hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
　　1、高可靠性hadoop按位存储和处理数据的能力值得人们信赖。
　　2、高扩展性hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
　　3、高效性hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
　　4、高容错性hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
　　5、低成本与一体机、商用数据仓库以及qlikview、yonghongz-suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
　　hadoop带有用java语言编写的框架，因此运行在linux生产平台上是非常理想的。hadoop上的应用程序也可以使用其他语言编写，比如c++。
　　hadoop大数据处理的意义
　　hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(etl)方面上的天然优势。hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像etl这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。hadoop的mapreduce功能实现了将单个任务打碎，并将碎片任务(map)发送到多个节点上，之后再以单个数据集的形式加载(reduce)到数据仓库里。
　　php中文网hadoop学习路线资料：
　　1、hadoopcommon：hadoop体系最底层的一个模块，为hadoop各子项目提供各种工具，如：配置文件和日志操作等。
　　2、hdfs：分布式文件系统，提供高吞吐量的应用程序数据访问，对外部客户机而言，hdfs就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是hdfs的架构是基于一组特定的节点构建的(参见图1)，这是由它自身的特点决定的。这些节点包括namenode(仅一个)，它在hdfs内部提供元数据服务;datanode，它为hdfs提供存储块。由于仅存在一个namenode，因此这是hdfs的一个缺点(单点失败)。
　　存储在hdfs中的文件被分成块，然后将这些块复制到多个计算机中(datanode)。这与传统的raid架构大不相同。块的大小(通常为64mb)和复制的块数量在创建文件时由客户机决定。namenode可以控制所有文件操作。hdfs内部的所有通信都基于标准的tcp/ip协议。
　　3、mapreduce：一个分布式海量数据处理的软件框架集计算集群。
　　4、avro：dougcutting主持的rpc项目，主要负责数据的序列化。有点类似google的protobuf和facebook的thrift。avro用来做以后hadoop的rpc，使hadoop的rpc模块通信速度更快、数据结构更紧凑。
　　5、hive：类似cloudbase，也是基于hadoop分布式计算平台上的提供datawarehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。hive提供了一套ql的查询语言，以sql为基础，使用起来很方便。
　　6、hbase：基于hadoopdistributedfilesystem，是一个开源的，基于列存储模型的可扩展的分布式数据库，支持大型表的存储结构化数据。
　　7、pig：是一个并行计算的高级的数据流语言和执行框架，sql-like语言，是在mapreduce上构建的一种高级查询语言，把一些运算编译进mapreduce模型的map和reduce中，并且用户可以定义自己的功能。
　　8、zookeeper：google的chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。zookeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
　　9、chukwa：一个管理大型分布式系统的数据采集系统由yahoo贡献。
　　10、cassandra：无单点故障的可扩展的多主数据库。
　　11、mahout：一个可扩展的机器学习和数据挖掘库。
　　hadoop设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性，正是这些设计上与生俱来的优点，才使得hadoop一出现就受到众多大公司的青睐，同时也引起了研究界的普遍关注。到目前为止，hadoop技术在互联网领域已经得到了广泛的运用。
　　以上就是关于hadoop是什么及hadoop学习路线的详细介绍，想要了解更多关于hadoop的新闻资讯，请关注大讲台官网、微信等平台，大讲台it职业在线学习教育平台为您提供权威的大数据hadoop培训课程和视频教程系统，通过大讲台金牌讲师在线录制的第一套自适应hadoop在线视频课程系统，让你快速掌握hadoop从入门到精通大数据开发实战技能。

以上就是浅谈Hadoop是什么及其学习路线的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

Flexbox布局对齐疑难解析：确保HTML结构正确是关键 HTML文档标题怎么设置_HTML标题标签使用教程 html相关链接怎么打_html相关链接如何打专业指南内部CSS怎么放在HTML里_内部CSS放在HTML里的具体操作 HTML头部注入漏洞怎么挖掘_HTML头部HTTP注入漏洞挖掘与利用分析