原创文档，转载请将原文url地址标明

前面两篇文档我们重点研究了datanode的启动及工作过程中的源代码，对源代码做了注释工作，本篇文档将总结前面两篇文档，我们将绘制整个工作过程的流程图，通过流程图大家可以较清楚的了解相关工作过程，结合前面的文档自己去实际研究一下代码能够更清楚的了解datanode的工作过程。

hadoop 相关视频下载地址: http://pan.baidu.com/share/link?shareid=223046310&uk=3073578852

引言，hadoop代表一种全新的编程思想，基于hadoop有很多衍生项目，充分利用他们

为我们服务是非常必要的，同时hadoop又是一个复杂系统，若能理解他的工作原理对

我们将有非常大的帮助，我们在这里以hadoop的0.1.0版本为基础逐步分析他的基本工作

原理、结构、思路等等，希望通过这个能帮助我们理解生产中的hadoop系统。时间有限，

经验不足，疏漏难免，在这里仅仅分享一些心得，希望对大家能起到一个抛砖引玉的作用吧，

有问题请大家给我留言或者评论等，这样也能对我的工作有莫大的帮助。

感谢您阅读这篇文章！

一．Datanode的启动过程及总体工作流程

本部分我们重点研究datanode启动流程，以及功过过程中的线程关系，下一节我们研究具体工作线程的关系。

上图是datanode启动及工作过程中的流程图，图中带有阴影区域的地方是线程或者线程组。

从上图可以看出，主要分成为：

左侧主线程，系统启动等等代码均在这里

数据线程，负责数据接收等相关任务，主线程中datanode对象构造函数内部创建的一个线程对象

任务线程，负责datanode工作过程中相关任务调度，namenode通信等，由主线程中runandwait函数中创建的线程对象

另外，数据线程及任务线程共同共同构成一对，每个datanode中配置的dir目录均构成一对相关线程

下面我们重点介绍一下上图中重点的工作流程，大家可以先看图，然后再看描述，也可以先看描述，在看图，总之图要与描述相互参照，慢慢理解，重在一个“悟”。

1. 用户激发启动，main函数被调用

2. 创建匿名配置文件（上一篇文章中代码注释中已经添加了必要的注释）

3. 运行runandwait函数

4. 取得用户的数据目录列表（以下步骤中大部分操作都是在runandwait函数进行的，我们这里仅仅给出示意的描述，没有严格遵循一下规范之类的）

5. 创建一个datanode节点对象（节点对象创建过程中发生了很多过程，我们先简单带过，稍后再介绍）

6. 给这datanode对象创建一个线程对象来同namenode等进行通信，状态维护等等，这个对象同上一步的datanode对象是相互关联的。

7. 重复5,6两个步骤，知道没有数据目录为止

8. 循环等待datanode的任务线程的结束

9. 若是全部线程结束主程序退出

下面我们重点介绍一下datanode创建过程中都发生了什么

1. 对目录进行相关检查

2. 创建namenode对象的代理对象（注意：强调一下是 Namenode对象的代理对象，程序通过反射机制进行的相关处理，我们将在后面几篇文章专门介绍这个代理及通信机制，届时欢迎读者观看，更欢迎读者提出自己的建议以及文章的疏漏，在此先感谢了！）

3. 本地数据操作对象的创建，程序通过这个对象具体操作本地文件等，相关情况我们后面在行讨论。

4. 创建数据的接收及发送线程（数据监听线程），线程对象付给当前datanode对象

经过了上面两个主要过程后，系统中已经存在了若干组线程，他们相互协作共同完成datanode的工作任务。

分别是：

主线程，完成系统初始化工作，启动完毕后基本功能已经完成，等待退出。

数据监听线程，负责数据接收与发送

任务线程，负责datanode的相关任务工作等。

这个几个线程的具体工作，我们在下面的一部分将详细介绍。

二．Datanode各工作线程流程

1. 数据监听线程DataXceiveServer

如下图

红色区域是这个这个线程的执行部分，在红色区域中的区域1的循环语句，程序会一直循环下去，直到应该退出为止，然后每次都执行下面的语句。

区域2（绿色的部分），系统开始等待接收一个用户的请求，若是没有用户的请求这个函数就会阻塞到这里，这个非常重要呀。

当系统中有用户请求到来时，会返回一个新的socket对象，程序会执行下一个语句。

在区域3中，程序创建一下新的对象用来在新创建的socket上接收数据请求等待，程序创建完成这个对象，立即开始这个线程。

最后这个线程就继续返回while语句，然后继续等待accept语句的返回（用户的请求到来）

2. 数据接收线程DataXceiver

这个线程设计datanode中实际进行数据操作的线程，是非常重要的一个过程。

快乐成长

每天进步一点点

引言，hadoop代表一种全新的编程思想，基于hadoop有很多衍生项目，充分利用他们

为我们服务是非常必要的，同时hadoop又是一个复杂系统，若能理解他的工作原理对

我们将有非常大的帮助，我们在这里以hadoop的0.1.0版本为基础逐步分析他的基本工作

原理、结构、思路等等，希望通过这个能帮助我们理解生产中的hadoop系统。 时间有限，

经验不足，疏漏难免，在这里仅仅分享一些心得，希望对大家能起到一个抛砖引玉的作用吧，

有问题请大家给我留言或者评论等，这样也能对我的工作有莫大的帮助。

感谢您阅读这篇文章！

一．Datanode的启动过程及总体工作流程

二．Datanode各工作线程流程

Related Posts:

发表评论 取消回复

原理、结构、思路等等，希望通过这个能帮助我们理解生产中的hadoop系统。时间有限，

发表评论取消回复