原创文章，转载请指明出处并保留原文url地址

hadoop是基于java平台的，他有自己的启动及管理脚本，他的启动脚本是如何工作，他的程序是如何启动的，启动过程中配置文件如何传递的，他同普通java项目的区别在那里，为什么我们必须用hadoop脚本来启动hadoop系统以及运行我们自定义的程序。从本文开始，我们将正式进入hadoop源代码中，本文重点阐述hadoop启动过程中配置文件的加载，希望通过文章来解答上面的问题。

本文是对分析过程的一个描述，文章后面还会有两个视频文件，分别是代码静态分析以及动态分析过程，大家根据习惯参考阅读。

系列文章简介，hadoop代表一种新的编程思想，基于hadoop有很多衍生项目，充分利用他们是非常必要的，同时hadoop又是一个复杂系统，若能理解他的工作原理对我们将有非常大的帮助，我们以hadoop 0.1.0版本为基础逐步分析他的基本工作原理、结构、思路等等，本文是系统文章的一部分，系列文章详情参见

http://www.iigrowing.cn/hadoop_src_introduction

希望通过这个能帮助我们理解生产中hadoop。时间有限，经验不足，疏漏难免，在这里仅分享一些心得，希望对大家能起到一个抛砖引玉的作用，有问题请大家给我留言或者评论等，这样也能对我的工作有很大帮助。感谢您阅读这篇文章！

一．Hadoop文件组成

Hadoop程序解压缩完成后源代码如下图

Bin目录，hadoop脚本，管理及维护hadoop系统，

Conf目录，hadoop配置文件，hadoop系统相关信息等，

Lib目录，hadoop依赖的相关jar文件

Src目录，hadoop源代码文件

Webapps目录， hadoop内嵌的webserver的j2ee程序目录

二．Hadoop基本启动过程

假设hadoop程序安装主目录用${hadoop_home}表示

管理人员可以执行${hadoop_home}\bin\start-all.sh文件启动hadoop系统

这个脚本将根据conf目录中相关配置文件，启动datanode，namenode，tasktracter，jobtracter等程序

Hadoop的几个主要配置文件如下：

那么脚本在启动hadoop程序中，配置文件信息如何传递给java程序，java程序是如何加载的？

本文将以datanode启动过程为例分析hadoop的配置文件传递，然后后续将逐步分析其他启动程序的配置文件的启动情况。

三．程序员角度看待hadoop启动

我们打开hadoop的源代码项目（eclipse的java项目）

如下图，我们打开如上目录及java源代码文件

双击左侧 main函数的节点，然后右面显示相关源代码，然后在

“runAndWait(new Configuration());”函数调用处，右击鼠标，弹出相关对话框，选择“open Declaration” 选项，可以直接使用快捷方式 F3按键，可以快速到达相关源代码处

代码如下：

private static void runAndWait(Configuration conf) throws IOException {

run(conf); // 调用run函数，进行相关业务逻辑（注意这里的参数对象 conf是在哪里创建的？？？？？ 这个非常重要，呕！！！）

// Wait for sub threads to exit 等等线程退出

for (Iterator iterator = subThreadList.iterator(); iterator.hasNext();) {

Thread threadDataNode = (Thread) iterator.next();

try {

threadDataNode.join();

} catch (InterruptedException e) {

if (Thread.currentThread().isInterrupted()) {

// did someone knock?

return;

}

下面我们看一下配置文件是在哪里创建，我们可以回顾一下main函数，如下图

看红色区域，代码，这个代码创建一个匿名的 配置对象，这个配置对象，采用默认的构造函数。

配置类的构造函数如下

/** A new configuration. */

public Configuration() {

defaultResources.add("hadoop-default.xml"); // 添加配置文件，最大问题，这里仅仅有文件名，没有文件路径，系统到哪里去找文件？

finalResources.add("hadoop-site.xml"); // 添加配置文件，同上面有相同问题

}

稍后我们在解释。。。

下面我们看一下run函数（这里run函数同java线程里面的run函数不是同一个类型的，仅仅是名称相同）

/** Start datanode daemons.

* Start a datanode daemon for each comma separated data directory

* specified in property dfs.data.dir

public static void run(Configuration conf) throws IOException {

String[] dataDirs = conf.getStrings("dfs.data.dir"); // 这里面就调用了我们今天需要重点解决的问题，这里调用配置，配置从哪里来的。 Conf对象在哪里来的

下面代码不再今天解释之列，今天可以忽略！！！

subThreadList = new Vector(dataDirs.length);

for (int i = 0; i < dataDirs.length; i++) {

DataNode dn = makeInstanceForDir(dataDirs[i], conf);

if (dn != null) {

Thread t = new Thread(dn, "DataNode: "+dataDirs[i]);

t.setDaemon(true); // needed for JUnit testing

t.start();

subThreadList.add(t);

}

本函数中重点是： String[] dataDirs = conf.getStrings("dfs.data.dir"); 这行语句的相关情况，直接关联hadoop启动过程中，配置文件的相关获取方法。并且这个过程在整个hadoop中都是类似的，仅仅是获取的配置信息不同而已，但是过程，方法都是非常相似的。

上面函数将调用下面的函数，如下

/** Returns the value of the <code>name</code> property as an array of

* strings. If no such property is specified, then <code>null</code>

* is returned. Values are whitespace or comma delimted.

public String[] getStrings(String name) {

String valueString = get(name); // 重点语句，负责初始化相关代码，我们需要跟踪进入相关代码

if (valueString == null)

return null;

StringTokenizer tokenizer = new StringTokenizer (valueString,", \t\n\r\f");

List values = new ArrayList();

while (tokenizer.hasMoreTokens()) {

values.add(tokenizer.nextToken());