本帖最后由 廖浩廷 于 2020-3-26 14:59 编辑
1. 集群需先在ambari管理界面新增yarn+MapReduce服务。 其中yarn config内,cpu和内存的Maximum需大于之后start.sh配置文件中设置的值。 2. spark的部署 cd /opt tar -xf spark2.gz vim /opt/spark2/conf/spark-env.sh 在最后面增加export HADOOP_CONF_DIR=/etc/hadoop/2.5.0.0-1245/0(其为实际Hadoop conf目录) 3. gather的部署 mkdir /cluster cd /cluster tar –xf gather-0.2.0.tar.gz #修改环境变量配置文件,一般不用改,除非特别更改过变量 vim /cluster/gather-0.2.0/conf/gather-env.sh 分别修改JAVA_HOME, HADOOP_HOME,SPARK_HOME的环境变量
#修改gather.properties配置文件 vim /cluster/gather-0.2.0/conf/gather.properties 更改phoenix.url配置参数。目前版本需要手动创建上一个月table,最后行注释取消。创建后需要重新注释。 create.table.time=201811
#修改聚集框架配置文件 vim /cluster/gather-0.2.0/conf/gather.json (redis.host配置内网IP)
#修改相应配置参数 vim /cluster/gather-0.2.0/bin/start.sh executor-memory占用内存,num-executors代表Spark作业总共要用多少个Executor进程来执行,executor-cores每个Executor进程的CPU core数量 。及占用4核。
备注 核心数=driver-cores + executor-cores*num-executors 内存 =driver-cores*(driver-memory+spark.yarn.driver.memoryOverhead) + num-executors*(executor-memory+yarn.executor.memoryOverhead)
注意与上图中的rdd.partition.num保持一致。及4核。
crontab -e 建表语句每周运行一次,建本月和下月的表(如果不存在); 聚集框架凌晨2点运行: 0 0 * * 0 sh /cluster/gather-0.2.0/bin/batchTable.sh 0 2 * * * sh /cluster/gather-0.2.0/bin/start.sh
#初始化表 sh /cluster/gather-0.2.0/bin/batchTable.sh
将配置文件中输入的create.table.time注释后,再运行 #创建当月和下一个月 vim /cluster/gather-0.2.0/conf/gather.properties
#安装完毕
|