一定要告诫自己不要偷懒!!

hadoop2.5的HA集群由4太机器组成,两个namenode节点,三个datanode,三个zookeeper,加载VMWare上。

由于我贪图方便,每次做完一些任务,都直接选择在虚拟机那里点强制关机,然后导致集群无法启动,datanode无法启动,block全部损坏

因为没有任何的错误,(日志里面完全没有异常抛出),然后我只能重新配置集群,重新配置之后并没有第一次那样一遍成功,我自己的写的文章里面自己忘了记 zkfc的 foramtZK。

然后一遍一遍的重试,每次format都是成功的但是都是无法正常启动,两个namenode都是standby。

注意的问题如下:

  1. zookeeper的data文件目录中除了myid之外,其他的一切都应该删除,而不应该留着。
  2. hadoop的jndata和tmp.dir中也应当删除,datanode之前无论如何也无法恢复,三个节点全部挂掉了。
  3. 每次出现问题,最好能够看看自己的ssh免密钥登录是否出现问题,我的机器莫名其妙的有个节点无法ssh了,或者是需要yes一次。

重新配置hadoop的时候,应当尽量与其有关的文件与第一次配置的时候一样,日志应该也删掉,方便自己查看最新日志!