基于Docker搭建多节点Hadoop集群

  categories:资料  author:

GitHub地址:

  • kiwenlau/hadoop-cluster-docker

本文介绍了基于Docker在单机上搭建多节点Hadopp集群方法,Hadoop的Master和Slave分别运行在不同容器中。

可以直接进入第三部分,快速在本机搭建一个3个节点的Hadoop集群

一. 项目简介

直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说。他们还没开始跑wordcount,可能就被这个问题折腾的体无完肤了。

我的目标是将Hadoop集群运行在Docker容器中,使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群。其实这个想法已经有了不少实现,但是都不是很理想,他们或者镜像太大,或者使用太慢,或者使用了第三方工具使得使用起来过于复杂…下表为一些已知的Hadoop on Docker项目以及其存在的问题。

项目镜像大小问题
sequenceiq/hadoop-docker:latest1.491GB镜像太大,只支持单个节点
sequenceiq/hadoop-docker:2.7.01.76 GB同上
sequenceiq/hadoop-docker:2.6.01.624GB同上
sequenceiq/ambari:latest1.782GB镜像太大,使用太慢
sequenceiq/ambari:2.0.04.804GB同上
sequenceiq/ambari:latest:1.704.761GB同上
alvinhenrick/hadoop-mutinode4.331GB镜像太大,构建太慢,增加节点麻烦,有bug

我的项目参考了alvinhenrick/hadoop-mutinode项目,不过我做了大量的优化和重构。alvinhenrick/hadoop-mutinode项目的Github主页以及作者所写的博客地址:

下面两个表是alvinhenrick/hadoop-mutinode项目与我的kiwenlau/hadoop-cluster-docker项目的参数对比

镜像名称构建时间镜像层数
阅读全文

UEFI引导系统

  categories:资料  author:

现在的电脑大多数使用了UEFI引导系统(原来都是使用BIOS),从而加快启动速度,但同时也给用惯BIOS的用户带来很多困惑!为啥电脑不能识别制作好的u盘PE系统?
810a19d8bc3eb135591dc3dca51ea8d3fc1f44fa

  • 传统的电脑通常都是使用BIOS引导,开机BIOS初始化,然后BIOS自检,再引导操作系统→进入系统,显示桌面。

    UEFI引导系统
  • 2光盘启动:

    在BIOS引导的情况下,通常使用安装光盘维护、安装操作性系统,只要找到CD-ROM(或者DVD,主板菜单不一样)使用上下键,选中此项,按回车键(Enter)予以确认,再按F10键,重启电脑,就能认光驱里面的安装光盘了。

    UEFI引导系统
  • 3u盘启动:

    在BIOS引导下,u盘PE系统的操作和光驱引导设置方法类似,只要找到USB选项(有的主板是显示u盘的型号),设置为第一启动项即可,重启电脑就会读u盘PE系统了。

    UEFI引导系统
  • 4【UEFI引导】:

    UEFI引导的流程是开机初始化UEFI,然后,直接引导操作系统,进入系统。和传统的BIOS引导相比,UEFI引导少了一道BIOS自检的过程,所以开机就会更快一些,这也成为了电脑的新宠。

    UEFI引导系统
  • 5比如,宏碁的新电脑默认是UEFI引导,如果需要使用u盘PE系统,有可能会不认u盘,此时一点要做些调整。插好已经制作过的u盘PE系统,开机快速(慢了就会直接读取硬盘)按F12键,进入设置界面。下图是各品牌机或者主板进入BIOS启动设置的键值(仅供参考)。
    UEFI引导系统
  • 6进入设置主界面,继续点击Boot(引导)菜单,Boot mode(引导模式)右边的就是当前的引导模式,这里默认的是UEFI引导。
    UEFI引导系统
  • 7选中该项回车,打开设置项之后,这里有两个选项:UEFI Legacy(使用上下键选中),引导模式选择Legacy
    UEFI引导系统
  • 8点击OK,确认修改为Legacy引导模式。
    UEFI引导系统
  • 9提示询问是否现在重启电脑?点击 yes 即可重启电脑,就会显示启动菜单。
    UEFI引导系统
  •  进入这个界面,相信很多熟悉BIOS的老用户就如释重负,第一项(HDD)为硬盘启动,第二项(USB)为u盘启动,第三项(Network)为网络启动。
    UEFI引导系统
  •  设置好u盘启动(USB),重启电脑就会认已经制作好的u盘PE系统了。接下来都是图形界面,又有中文说明,不必赘述了吧。
    UEFI引导系统
  •  但是,因为早期出品的
阅读全文

spring多数据源一致性事务方法

  categories:资料  author:
在一个业务中,在一个事务中处理时候将切换多个数据源,需要保证同一事务多个数据源数据的一致性。下面是spring中的两种配置方法。
本文内容从网络收集整理而成
 spring 多数据源配置

spring 多数据源配置一般有两种方案:

1、在spring项目启动的时候直接配置两个不同的数据源,不同的sessionFactory。在dao 层根据不同业务自行选择使用哪个数据源的session来操作。

2、配置多个不同的数据源,使用一个sessionFactory,在业务逻辑使用的时候自动切换到不同的数据源,有一个种是在拦截器里面根据不同的业务现切换到不同的datasource;有的会在业务层根据业务来自动切换。但这种方案在多线程并发的时候会出现一些问题,需要使用threadlocal等技术来实现多线程竞争切换数据源的问题。

 

【本文暂时只讨论第一种方案】

spring多事务配置主要体现在db配置这块,配置不同的数据源和不同的session

1、一下贴出 spring-db.xml配置

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns:context="http://www.springframework.org/schema/context"
    xmlns:aop="http://www.springframework.org/schema/aop" 
    xmlns:tx="http://www.springframework.org/schema/tx"
    xsi:schemaLocation="

http://www.springframework.org/schema/beans


http://www.springframework.org/schema/beans/spring-beans-3.0.xsd


http://www.springframework.org/schema/context


http://www.springframework.org/schema/context/spring-context-3.0.xsd

    http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-3.1.xsd 
    http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-3.1.xsd">

    <bean id="test1DataSource" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close" >
        <property name="driverClassName" value="${database.test1.driverClassName}" 
阅读全文

分布式开放消息系统(RocketMQ)的原理与实践

  categories:资料  author:

分布式消息系统作为实现分布式系统可扩展、可伸缩性的关键组件,需要具有高吞吐量、高可用等特点。而谈到消息系统的设计,就回避不了两个问题:

  1. 消息的顺序问题
  2. 消息的重复问题

RocketMQ作为阿里开源的一款高性能、高吞吐量的消息中间件,它是怎样来解决这两个问题的?RocketMQ 有哪些关键特性?其实现原理是怎样的?

关键特性以及其实现原理

一、顺序消息

消息有序指的是可以按照消息的发送顺序来消费。例如:一笔订单产生了 3 条消息,分别是订单创建、订单付款、订单完成。消费时,要按照顺序依次消费才有意义。与此同时多笔订单之间又是可以并行消费的。首先来看如下示例:

假如生产者产生了2条消息:M1、M2,要保证这两条消息的顺序,应该怎样做?你脑中想到的可能是这样:

你可能会采用这种方式保证消息顺序

假定M1发送到S1,M2发送到S2,如果要保证M1先于M2被消费,那么需要M1到达消费端被消费后,通知S2,然后S2再将M2发送到消费端。

这个模型存在的问题是,如果M1和M2分别发送到两台Server上,就不能保证M1先达到MQ集群,也不能保证M1被先消费。换个角度看,如果M2先于M1达到MQ集群,甚至M2被消费后,M1才达到消费端,这时消息也就乱序了,说明以上模型是不能保证消息的顺序的。如何才能在MQ集群保证消息的顺序?一种简单的方式就是将M1、M2发送到同一个Server上:

保证消息顺序,你改进后的方法

这样可以保证M1先于M2到达MQServer(生产者等待M1发送成功后再发送M2),根据先达到先被消费的原则,M1会先于M2被消费,这样就保证了消息的顺序。

这个模型也仅仅是理论上可以保证消息的顺序,在实际场景中可能会遇到下面的问题:

网络延迟问题

只要将消息从一台服务器发往另一台服务器,就会存在网络延迟问题。如上图所示,如果发送M1耗时大于发送M2的耗时,那么M2就仍将被先消费,仍然不能保证消息的顺序。即使M1和M2同时到达消费端,由于不清楚消费端1和消费端2的负载情况,仍然有可能出现M2先于M1被消费的情况。

那如何解决这个问题?将M1和M2发往同一个消费者,且发送M1后,需要消费端响应成功后才能发送M2。

聪明的你可能已经想到另外的问题:如果M1被发送到消费端后,消费端1没有响应,那是继续发送M2呢,还是重新发送M1?一般为了保证消息一定被消费,肯定会选择重发M1到另外一个消费端2,就如下图所示。

保证消息顺序的正确姿势

这样的模型就严格保证消息的顺序,细心的你仍然会发现问题,消费端1没有响应Server时有两种情况,一种是M1确实没有到达(数据在网络传送中丢失),另外一种消费端已经消费M1且已经发送响应消息,只是MQ Server端没有收到。如果是第二种情况,重发M1,就会造成M1被重复消费。也就引入了我们要说的第二个问题,消息重复问题,这个后文会详细讲解。

回过头来看消息顺序问题,严格的顺序消息非常容易理解,也可以通过文中所描述的方式来简单处理。总结起来,要实现严格的顺序消息,简单且可行的办法就是:

保证生产者 - MQServer - 消费者是一对一对一的关系

这样的设计虽然简单易行,但也会存在一些很严重的问题,比如:

  1. 并行度就会成为消息系统的瓶颈(吞吐量不够)
  2. 更多的异常处理,比如:只要消费端出现问题,就会导致整个处理流程阻塞,我们不得不花费更多的精力来解决阻塞的问题。

但我们的最终目标是要集群的高容错性和高吞吐量。这似乎是一对不可调和的矛盾,那么阿里是如何解决的?

世界上解决一个计算机问题最简单的方法:“恰好”不需要解决它!—— 沈询

有些问题,看起来很重要,但实际上我们可以通过合理的设计阅读全文

Java常见内存溢出、内存泄露问题分析

  categories:资料  author:
  1. Java垃圾回收机制(GC)1.1GC机製作用1.2堆内存3代分布(年轻代、老年代、持久代)1.3GC分类1.4GC过程
  2. Java应用内存问题分析2.1Java内存划分2.2Java常见内存问题2.3ML(内存泄露) OOM(内存溢出)问题现象及分析2.4IBM DUMP分析工具使用介绍
  3. Java应用CPU、线程问题分析

Java垃圾回收机制(GC)

1.GC机製作用

1.1 JVM自动检测和释放不再使用的对象内存

1.2 Java 运行时JVM会执行 GC,不再需要显式释放对象

例:Object.finallize、 Windows.dispose、 System.gc

0ACTWd00

2.Java堆3代分布
0ACTWd01

关于Java堆3代分布情况,可通过命令:jmap –heap pid 查看

0ACTWd02

3.GC分类

3.1 Young … 阅读全文

Java常见内存溢出、内存泄露问题分析

  categories:资料  author:
  1. Java垃圾回收机制(GC)1.1GC机製作用1.2堆内存3代分布(年轻代、老年代、持久代)1.3GC分类1.4GC过程
  2. Java应用内存问题分析2.1Java内存划分2.2Java常见内存问题2.3ML(内存泄露) OOM(内存溢出)问题现象及分析2.4IBM DUMP分析工具使用介绍
  3. Java应用CPU、线程问题分析

Java垃圾回收机制(GC)

1.GC机製作用

1.1 JVM自动检测和释放不再使用的对象内存

1.2 Java 运行时JVM会执行 GC,不再需要显式释放对象

例:Object.finallize、 Windows.dispose、 System.gc


2.Java堆3代分布

关于Java堆3代分布情况,可通过命令:jmap –heap pid 查看

3.GC分类

3.1 Young … 阅读全文

Ambari——大数据平台的搭建利器

  categories:资料  author:

Ambari 是什么
Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。

说到这里,大家就应该明白什么人最需要 Ambari 了。那些苦苦花费好几天去安装、调试 Hadoop 的初学者是最能体会到 Ambari 的方便之处的。而且,Ambari 现在所支持的平台组件也越来越多,例如流行的 Spark,Storm 等计算框架,以及资源调度平台 YARN 等,我们都能轻松地通过 Ambari … 阅读全文

用tsocks和proxychains代理Linux下所有软件

  categories:资料  author:

境内很多网站又是无法访问 (twitter.com、facebook.com 等),让我们这些网民很无奈。

使用 SSH 翻墙
我曾经介绍过如何使用 SSH 来建立一个 SOCKS 代理服务器,让你能够在 Firefox 里正常访问以上所提起的网址。然而不是所有 Linux 软件都能支持代理服务器。如果你最热爱的 Linux 工具需要访问“被封”的网站,又没有嵌入的代理支持,该怎么办呢?
遇到这种情况当然不要放弃该软件… 毕竟我们用的系统是 Linux 而不是以前让我们咳声叹气,丧失信心的 Windows,总有一个方法去解决问题。

举个例子吧
我 不久前发现了 Twitter 这个网站。我一开始不经常用,也搞不明白别人为什么对这个 web 2.0 服务都着了迷。后来我在推特上跟的人越来越多,跟着我的人亦是日益增多,不知不觉我也迷上了该网站,天天都会上。凡是经常用推特的人一般都会用一个推特的 客户端,这才能跟得上朋友们的状态更新和最火热的网络新闻。本人作为 Ubuntu 的用户,我自然就选了 Gwibber 这个基于 GNOME 的客户端来访问我的推特。这个软件功能很丰富,用起来得心应手,不过总有一个问题让我有点遗憾,就是 Gwibber 还不听从 GNOME … 阅读全文

JVM 内部运行线程介绍

  categories:资料  author:

最近抽时间把JVM运行过程中产生的一些线程进行了整理,主要是围绕着我们系统jstack生成的文件为参照依据。  前段时间因为系统代码问题,造成性能瓶颈,于是就dump了一份stack出来进行分析。  stack 里面线程非常多,排查起来需要一定的经验,所以,对它们有一定了解,可以提高排查问题的效率。  现在网上资料也不是特别全,所以,导致很多新人在拿到一个stack文件之后,也不知知道从何看起。 下面我把这次整理的一些个人认为比较常见的线程列出来。

线程所属说明
Attach ListenerJVM          Attach Listener线程是负责接收到外部的命令,而对该命令进行执行的并且吧结果返回给发送者。通常我们会用一些命令去要求jvm给我们一些反馈信息,如:java -version、jmap、jstack等等。如果该线程在jvm启动的时候没有初始化,那么,则会在用户第一次执行jvm命令时,得到启动。
Signal DispatcherJVM        前面我们提到第一个Attach Listener线程的职责是接收外部jvm命令,当命令接收成功后,会交给signal dispather线程去进行分发到各个不同的模块处理命令,并且返回处理结果。signal dispather线程也是在第一次接收外部jvm命令时,进行初始化工作。
CompilerThread0JVM       用来调用JITing,实时编译装卸class。通常,jvm会启动多个线程来处理这部分工作,线程名称后面的数字也会累加,例如:CompilerThread1
ConcurrentMark-SweepGCThreadJVM并发标记清除垃圾回收器(就是通常所说的CMS GC)线程,该线程主要针对于老年代垃圾回收。ps:启用该垃圾回收器,需要在jvm启动参数中加上:-XX:+UseConcMarkSweepGC
DestroyJavaVMJVM执行main()的线程在main执行完后调用JNI中的jni_DestroyJavaVM()方法唤起DestroyJavaVM线程。   JVM在Jboss服务器启动之后,就会唤起DestroyJavaVM线程,处于等待状态,等待其它线程(java线程和native线程)退出时通知它卸载JVM。线程退出时,都会判断自己当前是否是整个JVM中最后一个非deamon线程,如果是,则通知DestroyJavaVM线程卸载JVM。ps:扩展一下:1.如果线程退出时判断自己不为最后一个非deamon线程,那么调用thread->exit(false),并在其中抛出thread_end事件,jvm不退出。2.如果线程退出时判断自己为最后一个非deamon线程,那么调用before_exit()方法,抛出两个事件: 事件1:thread_end线程结束事件、事件2:VM的death事件。然后调用thread->exit(true)方法,接下来把线程从active list卸下,删除线程等等一系列工作执行完成后,则通知正在等待的DestroyJavaVM线程执行卸载JVM操作。
ContainerBackgroundProcessorJBOSS它是一个守护线程,在jboss服务器在启动的时候就初始化了,主要工作是定期去检查有没有Session过期.过期则清除.参考:http://liudeh-009.iteye.com/blog/1584876
ConfigClientNotifierConfigServer
阅读全文

网络虚拟化技术

  categories:资料  author:

笔者现在在做云计算的网络设计,涉及到上百台服务器与交换机,在实测前必须进行原型测试,但是我只有一个工作用开发机,本文介绍一种方法,使用这一台机器模拟数十台服务器以及路由器的网络环境。

Linux的网络虚拟化是LXC项目中的一个子项目,LXC包括文件系统虚拟化,进程空间虚拟化,用户虚拟化,网络虚拟化,等等

,这里使用LXC的网络虚拟化来模拟多个网络环境。

创建虚拟网络环境

使用命令

$ ip netns add net0

可以创建一个完全隔离的新网络环境,这个环境包括一个独立的网卡空间,路由表,ARP表,ip地址表,iptables,ebtables,等等。总之,与网络有关的组件都是独立的。

ip命令需要root权限的,但是由于本文大量使用ip命令,于是笔者给ip命令添加了capability,使普通用户也能使用ip命令

使用命令

$ ip netns list
net0

可以看到我们刚才创建的网络环境

进入虚拟网络环境

使用命令

$ ip netns exec net0 `command`

我们可以在 net0 虚拟环境中运行任何命令

$ ip netns exec net0 bash
$ ip 
阅读全文


快乐成长 每天进步一点点