hadoop源代码介绍

关于本系列文章

hadoop代表一种新的编程思想,基于hadoop有很多衍生项目,充分利用他们为我们服务是非常必要的,hbase一个基于hadoop的列式数据库,hive基于hadoop的数据仓库,mahout一个基于hadoop的数据挖掘框架,Pig一个基于hadoop的脚本语言方便分析各种文本等数据,还有Lucene也可以基于hadoop进行部署等。

 

如何使用hadoop的文章已经遍地都是,大家可以在baidu或者google去搜索,有各式各样的文章。那么如何更好使用hadoop,更好设计hadoop系统?hadoop是一个复杂系统,若能理解他的工作原理对我们更好利用hadoop将有莫大帮助,我们在这里以hadoop的0.1.0版本为基础逐步分析他的基本工作原理、结构、思路等等,这里仅仅是抛砖引玉的开头吧,希望能帮助我们理解生产中的hadoop。 时间有限,经验不足,疏漏难免,在这里仅仅分享一些心得。

 

这个部分文章是一个系列文章,包括以下一些内容

第一部分 基本情况介绍

Hadoop源代码分析 之概念介绍(1)—–服装加工,火车货物检查与hadoop

采用示例类比的方法从另外一个方面来描述hadoop的一个工作过程

Hadoop源代码分析 之概念介绍(2)—–初学者眼中的hadoop

采用简单通俗语言图形化的描述hadoop的基本概念

第二部分 分析环境搭建

Hadoop源代码分析 之环境配置(1)—–hadoop虚拟机配置

介绍为分析hadoop源代码需要搭建的开发环境(虚拟机环境)

Hadoop源代码分析 之环境配置(2)—–虚拟机ip配置

hadoop虚拟机环境的ip配置相关情况(一些基础设置,熟悉的读者略过)

Hadoop源代码分析 之hadoop源代码项目(1)—–创建eclipse下java项目

在hadoop虚拟机环境中创建eclipse项目,通过java项目了解hadoop源代码

本部分还有些内容没有补充,稍后慢慢补充

第三部分 hadoop环境配置及启动过程

Hadoop源代码分析 之hadoop配置及启动(1)—–classpath与配置文件

介绍hadoop配置文件同java的classpath之间的关系

Hadoop源代码分析 之hadoop配置及启动(2)—–classpath与启动shell脚本

hadoop的启动脚本工作情况分析
Hadoop源代码分析 之hadoop配置及启动(3)—–classpath与hadoop主要组件启动过程

介绍hadoop各个主要部件启动过程

Hadoop源代码分析 之hadoop配置及启动(4)—–启动过程汇总

hadoop启动过程汇总分析,通过图形化的方法分析启动过程,可以重点看一下

 

第四部分 Datanode工作原理

Hadoop源代码分析 之Datanode工作原理(1)—–datanode启动过程代码分析

介绍hadoop中datanode的启动代码

Hadoop源代码分析 之Datanode工作原理(2)—–datanode基本工作过程

hadoop的datanode的工作过程,重点描述工作中各种活动,并不过多研究细节

Hadoop源代码分析 之Datanode工作原理(3)—–datanode工作过程总结

总结datanode工作过程,以图形方式总结相关工作过程

Hadoop源代码分析 之Datanode工作原理(4)—–拷贝本地文件到hadoop的过程

通过介绍hadoop客户端拷贝文件到hdfs中的过程,来了解datanode的工作过程

Hadoop源代码分析 之Datanode工作原理(5)—–拷贝文件过程总结

本部分还有些内容没有补充,稍后慢慢补充

 

 

有问题请大家给我留言或者评论等,这样也能对我的工作有莫大的帮助。感谢您阅读这篇文章!

 

 

发表评论