查看: 5341|回复: 1

大数据聚集框架部署

[复制链接]

136

主题

234

帖子

3万

积分

专业

Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31

积分
35229
发表于 2018-12-18 14:01:28 | 显示全部楼层 |阅读模式
本帖最后由 廖浩廷 于 2020-3-26 14:59 编辑

1.       集群需先在ambari管理界面新增yarn+MapReduce服务。
其中yarn config内,cpu和内存的Maximum需大于之后start.sh配置文件中设置的值。
1.png
2.       spark的部署
cd /opt
tar -xf spark2.gz
vim /opt/spark2/conf/spark-env.sh
在最后面增加export HADOOP_CONF_DIR=/etc/hadoop/2.5.0.0-1245/0(其为实际Hadoop conf目录)
image001.png
3.       gather的部署
mkdir /cluster
cd /cluster
tar –xf gather-0.2.0.tar.gz
#修改环境变量配置文件,一般不用改,除非特别更改过变量
vim /cluster/gather-0.2.0/conf/gather-env.sh
分别修改JAVA_HOME, HADOOP_HOME,SPARK_HOME的环境变量


image003.png

#修改gather.properties配置文件
vim /cluster/gather-0.2.0/conf/gather.properties
更改phoenix.url配置参数。目前版本需要手动创建上一个月table,最后行注释取消。创建后需要重新注释。
create.table.time=201811

image005.png



#修改聚集框架配置文件
vim /cluster/gather-0.2.0/conf/gather.json
(redis.host配置内网IP)
image007.png


#修改相应配置参数
vim /cluster/gather-0.2.0/bin/start.sh
executor-memory占用内存,num-executors代表Spark作业总共要用多少个Executor进程来执行,executor-cores每个Executor进程的CPU core数量 。及占用4核。

备注
核心数=driver-cores + executor-cores*num-executors
内存  =driver-cores*(driver-memory+spark.yarn.driver.memoryOverhead)  + num-executors*(executor-memory+yarn.executor.memoryOverhead)

注意与上图中的rdd.partition.num保持一致。及4核。
image009.png


crontab -e
建表语句每周运行一次,建本月和下月的表(如果不存在);
聚集框架凌晨2点运行:
0 0 * * 0 sh /cluster/gather-0.2.0/bin/batchTable.sh
0 2 * * * sh /cluster/gather-0.2.0/bin/start.sh

image011.png

#初始化表
sh /cluster/gather-0.2.0/bin/batchTable.sh

将配置文件中输入的create.table.time注释后,再运行
#创建当月和下一个月
vim /cluster/gather-0.2.0/conf/gather.properties



#安装完毕






136

主题

234

帖子

3万

积分

专业

Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31

积分
35229
 楼主| 发表于 2018-12-26 17:50:53 | 显示全部楼层
本帖最后由 廖浩廷 于 2019-6-3 11:00 编辑

安装节点,运行日志情况查看。
yarn  application -list -appStates FINISHED
根据查询出结果,查看
1.png
按执行顺序从上往下。
最近 Application-Type=SPARK,即为最近一天执行。记录该Application-Id(application_1544404177446_0003),也可找到最大的ID,即为最近一天执行



cd /cluster/gather-0.2.0/logs
su hdfs
yarn logs -applicationId application_1544404177446_0003 > application_1544404177446_0003.log

此时该log文件即为当天运行离线报表日志
logs文件夹权限777
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表