Hadoop在进行namenode -format的前(伪分布)一般会选择默认的配置,除了指定备份和tmp目录。

还有一些其他的配置在真正集群的时候也是一定要进行配置的。

简单记录一下hadoop的主要配置文件中core-site.xml  / hdfs-site.xml /mapred-site.xml/ yarn-site.xml的配置。

一、core-site.xml

真实环境是需要指定域名而不能是localhost

conf-1

二、hdfs-site.xml

dfs.replication 是备份块数,这台机器我是伪分布安装的,就给了1块

permissions是权限检查,应该true

namenode.http-address  :  namenode的web地址

namenode.secondary.httpaddress  :  secondary namenode 的web地址

namenode.name.dir :  指定namenode的数据存储的本地目录,默认是在tmp下的一个文件夹,单独拿出来

namenode.name.edits : 同样的道理

checkpoint就是secondary namenode的数据存储本地目录和日志目录。

conf-2

三、yarn-site.xml

配置resourcemanager的hostname

配置jobhistory的address

配置webapp的address

conf-3

四、slaves

将slaves中的主机名改成 hadoop-yarn.ptbird.cn而不是localhost,因为上面配置都是使用的这个地址。

五、注意的问题

如果已经format,重新配置后为了省去麻烦,再次format的时候,最好删除掉之前/data/dfs/的内容,否则即使format成功了,很多服务也起不来。

最常见的问题是datanode起不来,因为clusterId已经记录过了,再次format会产生新的clusterId。

最好的做法是:

删除/data/dfs/*后,重启,然后再次format。