大数据聚集框架部署

中位技术支持 · 发表于 2018-12-18 14:01:28

本帖最后由廖浩廷于 2020-3-26 14:59 编辑

1. 集群需先在ambari管理界面新增yarn+MapReduce服务。

其中yarn config内，cpu和内存的Maximum需大于之后start.sh配置文件中设置的值。

2. spark的部署

cd /opt

tar -xf spark2.gz

vim /opt/spark2/conf/spark-env.sh

在最后面增加export HADOOP_CONF_DIR=/etc/hadoop/2.5.0.0-1245/0（其为实际Hadoop conf目录）

3. gather的部署

mkdir /cluster

cd /cluster

tar –xf gather-0.2.0.tar.gz

#修改环境变量配置文件,一般不用改，除非特别更改过变量

vim /cluster/gather-0.2.0/conf/gather-env.sh

分别修改JAVA_HOME, HADOOP_HOME,SPARK_HOME的环境变量

#修改gather.properties配置文件

vim /cluster/gather-0.2.0/conf/gather.properties

更改phoenix.url配置参数。目前版本需要手动创建上一个月table，最后行注释取消。创建后需要重新注释。

create.table.time=201811

#修改聚集框架配置文件

vim /cluster/gather-0.2.0/conf/gather.json

（redis.host配置内网IP）

#修改相应配置参数

vim /cluster/gather-0.2.0/bin/start.sh

executor-memory占用内存，num-executors代表Spark作业总共要用多少个Executor进程来执行，executor-cores每个Executor进程的CPU core数量。及占用4核。

备注

核心数=driver-cores + executor-cores*num-executors

内存 =driver-cores*（driver-memory+spark.yarn.driver.memoryOverhead） + num-executors*（executor-memory+yarn.executor.memoryOverhead）

注意与上图中的rdd.partition.num保持一致。及4核。

crontab -e

建表语句每周运行一次，建本月和下月的表（如果不存在）；

聚集框架凌晨2点运行：

0 0 * * 0 sh /cluster/gather-0.2.0/bin/batchTable.sh

0 2 * * * sh /cluster/gather-0.2.0/bin/start.sh

#初始化表

sh /cluster/gather-0.2.0/bin/batchTable.sh

将配置文件中输入的create.table.time注释后，再运行

#创建当月和下一个月

vim /cluster/gather-0.2.0/conf/gather.properties

#安装完毕

中位技术支持 · 发表于 2018-12-26 17:50:53

本帖最后由廖浩廷于 2019-6-3 11:00 编辑

安装节点，运行日志情况查看。
yarn application -list -appStates FINISHED
根据查询出结果，查看

按执行顺序从上往下。
最近 Application-Type=SPARK，即为最近一天执行。记录该Application-Id（application_1544404177446_0003），也可找到最大的ID，即为最近一天执行

cd /cluster/gather-0.2.0/logs
su hdfs
yarn logs -applicationId application_1544404177446_0003 > application_1544404177446_0003.log

此时该log文件即为当天运行离线报表日志
logs文件夹权限777