查看: 3960|回复: 3

F3平台(v3.8.X)日常基础维护说明

[复制链接]

136

主题

234

帖子

3万

积分

专业

Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31

积分
35249
发表于 2019-4-23 15:06:22 | 显示全部楼层 |阅读模式
本帖最后由 廖浩廷 于 2019-12-17 18:39 编辑

F3平台在日常使用过程中,若出现故障,可以按照以下各项逐一检查各项服务器,因有很多关联关系需要按照顺序检查处理

一、集群端
1.集群端由Ambari进行管理,运行在主节点上,主进程名为ambari-server,启动、停止、重启命令依次为:
ambari-server start
ambari-server stop
ambari-server restart

2.集群端Ambari管理地址为http://主节点IP:8080/,初始用户名和密码为admin
主节点为集群第一台服务器,8080端口为默认端口。

3.Ambari状态、使用如下图所示,
1.为集群所有服务状态,2.为启动所有服务,3.为停止所有服务;1.中所有服务为绿色,没有任何红色标记就是运行正常,若有红色报错,可尝试停止所有服务后再启动所有服务。
1.png      

                        
4.flink项目(一般为集群最后一台服务器)
各项目存放路径:
/cluster/default

各监控服务启动、停止、重启命令依次为:

adas-0.1.0:ADAS(主动安全)项目;
cd /cluster/default/adas-0.1.0
sh bin/launcher start
sh bin/launcher stop
sh bin/launcher restart

alarm-0.1.0:平台报警项目;
cd /cluster/default/alarm-0.1.0/
sh bin/launcher start
sh bin/launcher stop
sh bin/launcher restart

positional-0.1.0:平台位置数据服务;
cd /cluster/default/positional-0.1.0/
sh bin/launcher start
sh bin/launcher stop
sh bin/launcher restart

查询已提交yarn任务:
yarn  application -list -appStates running
停止指定yarn任务
yarn application -kill appid

重启步骤:先停监控程序(各项目
launcher),再停yarn任务,再执行监控即可。或者直接停yarn任务。
查询是否运行正常:需开放zwlbs2节点8088端口,在ui中进行查看。(8088端口为高危端口,勿直接映射,勿长期开放)
启动监控后,查看tail -f logs/monitor.log,若发现卡在检查点,请执行以下操作:
su hdfs
列出检查点下文件:
hdfs dfs -ls /flink/streamingload/default
删除检查点下某文件(仅删除启动失败,一直恢复检查点的项目文件,XX为项目名称,如:adas*)
hdfs dfs -rm -r /flink/streamingload/default/XX

flink入库查询:
cd /usr/hdp/2.5.0.0-1245/kafka/
查询已创建主题
./bin/kafka-topics.sh --zookeeper zwlbs1:2181 -list
查询该主题是否有收到数据
./bin/kafka-console-consumer.sh --zookeeper zwlbs1:2181 -topic outputflink

5.服务器性能监控服务(每台服务器都有)
启动:
cd /home/server-monitor
nohup java -jarmonitor-0.0.1-SNAPSHOT.jar &
停止:
输入ps -ef | grep monitor列出monitor服务,再kill掉。

6.esjob项目(集群每台服务器都有)
启动:
cd /home/esjob
nohup java -jar zw-schedule.jar &
停止:
输入ps -ef | grep zw-schedule.jar列出zw-schedule.jar服务,再kill掉。


二、web端

1.F3平台正常需要确保集群端所有服务、Java、Mysql、Redis、Slapd、vsftpd、nginx均正常运行。
2). Mysql、Redis、Slapd检查方法为输入命令 netstat-lntp 检查服务端口是否启动来判定服务是否正常,如下:

Redis服务端口(其中6378和6379前面的IP为本机IP):
tcp       0     0   0.0.0.0:26378          0.0.0.0:*      LISTEN     5520/redis-sentinel
tcp       0     0   192.168.24.50:6378     0.0.0.0:*      LISTEN     5516/redis-server 1
tcp       0     0   0.0.0.0:26379          0.0.0.0:*      LISTEN      5512/redis-sentinel
tcp       0     0   192.168.24.50:6379     0.0.0.0:*      LISTEN     5508/redis-server 1

Slapd服务端口:
tcp       0     0   0.0.0.0:389           0.0.0.0:*       LISTEN     2099/slapd
tcp6     0     0   :::389                 :::*           LISTEN      2099/slapd

Mysql服务端口:
tcp6      0     0   :::3306                :::*           LISTEN      1702/mysqld

vsftpd服务端口:
tcp6      0     0   :::21                  :::*           LISTEN      3310/vsftpd

nginx服务端口:
tcp       0    0 0.0.0.0:8799           0.0.0.0:*       LISTEN     3887/nginx: master  
tcp       0    0 0.0.0.0:80             0.0.0.0:*       LISTEN      3887/nginx: master

3).服务相关命令
①.Mysql启动、停止、重启命令以此为:
service mysqld start
service mysqld stop
service mysqld restart

②.Redis启动命令为:
/opt/redis-3.2.8/src/redis-server /opt/redis-3.2.8/redis.conf
/opt/redis-3.2.8/src/redis-sentinel /opt/redis-3.2.8/sentinel.conf --protected-mode no
/opt/redis-slaver/src/redis-server /opt/redis-slaver/redis.conf
/opt/redis-slaver/src/redis-sentinel /opt/redis-slaver/sentinel.conf --protected-mode no
Redis停止方法如下:
输入命令ps -ef |grep redis 列出redis服务,使用命令kill -9 服务ID 结束服务。4个都需要kill。

③.slapd服务启动、停止、重启命令依次为:
systemctl start slapd
systemctl stop slapd
systemctl restart slapd

④.vsftpd服务启动、停止、重启命令依次为:
systemctl start vsftpd
systemctl stop vsftpd
systemctl restart vsftpd

⑤.nginx服务启动、停止命令依次为:
/opt/nginx/sbin/nginx
/opt/nginx/sbin/nginx -s stop

2.视频服务,视频功能检查方法为输入命令 netstat -lntp 检查服务端口是否启动来判定服务是否正常,如下:
tcp       0      0   0.0.0.0:7970           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7971           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7972           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7973           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7974           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7975           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7976           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7977           0.0.0.0:*              LISTEN     2416/MediaForwardSe
tcp       0      0   0.0.0.0:7978           0.0.0.0:*              LISTEN     2416/MediaForwardSe
视频服务器启动、停止命令依次为:
/home/ZWMediaServerRelease/run.sh
/home/ZWMediaServerRelease/stop.sh

2. web服务为tomcat
1)web服务启动命令:
/home/tomcat-clbs/bin/startup.sh

2).日志路劲如下:
/home/tomcat-clbs/log4j/info.log
注:错误日志在log4j下error.log,有故障可以在里面排查
例:可用命令 tail -f /home/tomcat-clbs/log4j/info.log 实时打印日志查看启动情况(也可将-f改为-100查看倒数100行日志,行数可根据情况自行修改)

3).Tomcat停止方法同上②.Redis停止方法相同,输入ps -ef | grep tomcat 列出tomcat服务,再kill掉。
web端以下端口均启动为正常:
tcp        0     0   0.0.0.0:53997           0.0.0.0:*      LISTEN   25262/java         
tcp6       0     0   127.0.0.1:8005          :::*           LISTEN   25262/java         
tcp6       0     0   :::6982                 :::*           LISTEN   25262/java         
tcp6       0     0   :::6983                 :::*           LISTEN   25262/java         
tcp6       0     0   :::8999                 :::*           LISTEN   25262/java         
tcp6       0     0   :::8009                 :::*           LISTEN   25262/java         
tcp6       0     0  127.0.0.1:57036         :::*           LISTEN   25262/java         
tcp6       0     0   :::8080                 :::*           LISTEN   25262/java         
tcp6       0     0   :::44692                :::*           LISTEN   25262/java         
tcp6       0     0   :::42808                :::*           LISTEN   25262/java         
tcp6       0     0   :::5209                 :::*           LISTEN   25262/java


3.解析服务为docker-f3
docker ps
可通过以上命令查看是否运行解析服务,正常为4个服务。
协议解析以下端口均启动为正常:
tcp6      0      0 :::6972         :::*           LISTEN  32055/docker-proxy  
tcp6      0      0 :::6975         :::*           LISTEN  32036/docker-proxy  
tcp6      0      0 :::6977         :::*           LISTEN  32024/docker-proxy  
tcp6      0      0 :::6978         :::*           LISTEN  32007/docker-proxy  
tcp6      0      0 :::6979         :::*           LISTEN  31994/docker-proxy  
tcp6      0      0 :::6981         :::*           LISTEN  31971/docker-proxy  
tcp6      0      0 :::9093         :::*           LISTEN  31853/docker-proxy  
tcp6      0      0 :::53996        :::*           LISTEN  31907/docker-proxy  
tcp6      0      0 :::6990         :::*           LISTEN  31947/docker-proxy  
tcp6      0      0 :::53998        :::*           LISTEN  31840/docker-proxy  
tcp6      0      0 :::53999        :::*           LISTEN 32252/docker-proxy  
tcp6      0      0 :::6992         :::*           LISTEN  31893/docker-proxy  
tcp6      0      0 :::6993         :::*           LISTEN  31879/docker-proxy   
tcp6       0       0 :::8180         :::*          LISTEN  31866/docker-proxy  
tcp6       0      0 :::8023        :::*           LISTEN 31933/docker-proxy  
tcp6      0      0 :::8761         :::*          LISTEN  31713/docker-proxy  

启动:
cd /home/docker/
docker-compose up -d
停止:
docker kill $(docker ps -aq)
重启:
docker restart $(docker ps -aq)

日志路径:
/home/f3/
4.broker服务
服务路径:
cd /root/broker
或者cd /home/broker  (正常部署为该路径)

启动命令:
./ broker.sh

停止方法:
输入命令ps -ef |grep broker 列出broker服务,使用命令kill -9 服务ID 结束服务。
broker以下端口均启动为正常:
tcp6      0      0   :::5210          :::*           LISTEN      860/java            
tcp6      0      0   :::5211          :::*           LISTEN      860/java

37

主题

73

帖子

7539

积分

管理员

Rank: 64Rank: 64Rank: 64Rank: 64

积分
7539
发表于 2019-4-24 13:39:14 | 显示全部楼层
{:9_286:}
回复

使用道具 举报

0

主题

2

帖子

70

积分

见习

Rank: 3Rank: 3Rank: 3

积分
70
发表于 2019-9-13 10:21:34 | 显示全部楼层
单服务器版的应该差不多吧?有没有相应的说明?

136

主题

234

帖子

3万

积分

专业

Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31Rank: 31

积分
35249
 楼主| 发表于 2019-9-17 10:31:38 | 显示全部楼层
paratek 发表于 2019-9-13 10:21
单服务器版的应该差不多吧?有没有相应的说明?

单服务器版本,维护是一样的。
只是几台服务器上的程序,都在一台上
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表