本帖最后由 廖浩廷 于 2019-12-17 18:39 编辑
F3平台在日常使用过程中,若出现故障,可以按照以下各项逐一检查各项服务器,因有很多关联关系需要按照顺序检查处理:
一、集群端 1.集群端由Ambari进行管理,运行在主节点上,主进程名为ambari-server,启动、停止、重启命令依次为: ambari-server start ambari-server stop ambari-server restart
2.集群端Ambari管理地址为http://主节点IP:8080/,初始用户名和密码为admin 主节点为集群第一台服务器,8080端口为默认端口。
3.Ambari状态、使用如下图所示, 1.为集群所有服务状态,2.为启动所有服务,3.为停止所有服务;1.中所有服务为绿色,没有任何红色标记就是运行正常,若有红色报错,可尝试停止所有服务后再启动所有服务。
4.flink项目(一般为集群最后一台服务器) 各项目存放路径: /cluster/default
各监控服务启动、停止、重启命令依次为:
adas-0.1.0:ADAS(主动安全)项目; cd /cluster/default/adas-0.1.0 sh bin/launcher start sh bin/launcher stop sh bin/launcher restart
alarm-0.1.0:平台报警项目; cd /cluster/default/alarm-0.1.0/ sh bin/launcher start sh bin/launcher stop sh bin/launcher restart
positional-0.1.0:平台位置数据服务; cd /cluster/default/positional-0.1.0/ sh bin/launcher start sh bin/launcher stop sh bin/launcher restart
查询已提交yarn任务: yarn application -list -appStates running
停止指定yarn任务
yarn application -kill appid
重启步骤:先停监控程序(各项目launcher),再停yarn任务,再执行监控即可。或者直接停yarn任务。 查询是否运行正常:需开放zwlbs2节点8088端口,在ui中进行查看。(8088端口为高危端口,勿直接映射,勿长期开放) 启动监控后,查看tail -f logs/monitor.log,若发现卡在检查点,请执行以下操作: su hdfs
列出检查点下文件:
hdfs dfs -ls /flink/streamingload/default
删除检查点下某文件(仅删除启动失败,一直恢复检查点的项目文件,XX为项目名称,如:adas*)
hdfs dfs -rm -r /flink/streamingload/default/XX
flink入库查询: cd /usr/hdp/2.5.0.0-1245/kafka/
查询已创建主题
./bin/kafka-topics.sh --zookeeper zwlbs1:2181 -list
查询该主题是否有收到数据
./bin/kafka-console-consumer.sh --zookeeper zwlbs1:2181 -topic outputflink
5.服务器性能监控服务(每台服务器都有) 启动: cd /home/server-monitor nohup java -jarmonitor-0.0.1-SNAPSHOT.jar & 停止: 输入ps -ef | grep monitor列出monitor服务,再kill掉。
6.esjob项目(集群每台服务器都有) 启动: cd /home/esjob nohup java -jar zw-schedule.jar & 停止: 输入ps -ef | grep zw-schedule.jar列出zw-schedule.jar服务,再kill掉。
二、web端
1.F3平台正常需要确保集群端所有服务、Java、Mysql、Redis、Slapd、vsftpd、nginx均正常运行。 2). Mysql、Redis、Slapd检查方法为输入命令 netstat-lntp 检查服务端口是否启动来判定服务是否正常,如下:
Redis服务端口(其中6378和6379前面的IP为本机IP): tcp 0 0 0.0.0.0:26378 0.0.0.0:* LISTEN 5520/redis-sentinel tcp 0 0 192.168.24.50:6378 0.0.0.0:* LISTEN 5516/redis-server 1 tcp 0 0 0.0.0.0:26379 0.0.0.0:* LISTEN 5512/redis-sentinel tcp 0 0 192.168.24.50:6379 0.0.0.0:* LISTEN 5508/redis-server 1
Slapd服务端口: tcp 0 0 0.0.0.0:389 0.0.0.0:* LISTEN 2099/slapd tcp6 0 0 :::389 :::* LISTEN 2099/slapd
Mysql服务端口: tcp6 0 0 :::3306 :::* LISTEN 1702/mysqld
vsftpd服务端口: tcp6 0 0 :::21 :::* LISTEN 3310/vsftpd
nginx服务端口: tcp 0 0 0.0.0.0:8799 0.0.0.0:* LISTEN 3887/nginx: master tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 3887/nginx: master
3).服务相关命令 ①.Mysql启动、停止、重启命令以此为: service mysqld start service mysqld stop service mysqld restart
②.Redis启动命令为: /opt/redis-3.2.8/src/redis-server /opt/redis-3.2.8/redis.conf /opt/redis-3.2.8/src/redis-sentinel /opt/redis-3.2.8/sentinel.conf --protected-mode no /opt/redis-slaver/src/redis-server /opt/redis-slaver/redis.conf /opt/redis-slaver/src/redis-sentinel /opt/redis-slaver/sentinel.conf --protected-mode no Redis停止方法如下: 输入命令ps -ef |grep redis 列出redis服务,使用命令kill -9 服务ID 结束服务。4个都需要kill。
③.slapd服务启动、停止、重启命令依次为: systemctl start slapd systemctl stop slapd systemctl restart slapd
④.vsftpd服务启动、停止、重启命令依次为: systemctl start vsftpd systemctl stop vsftpd systemctl restart vsftpd
⑤.nginx服务启动、停止命令依次为: /opt/nginx/sbin/nginx /opt/nginx/sbin/nginx -s stop
2.视频服务,视频功能检查方法为输入命令 netstat -lntp 检查服务端口是否启动来判定服务是否正常,如下: tcp 0 0 0.0.0.0:7970 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7971 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7972 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7973 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7974 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7975 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7976 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7977 0.0.0.0:* LISTEN 2416/MediaForwardSe tcp 0 0 0.0.0.0:7978 0.0.0.0:* LISTEN 2416/MediaForwardSe 视频服务器启动、停止命令依次为: /home/ZWMediaServerRelease/run.sh /home/ZWMediaServerRelease/stop.sh
2. web服务为tomcat 1)web服务启动命令: /home/tomcat-clbs/bin/startup.sh
2).日志路劲如下: /home/tomcat-clbs/log4j/info.log 注:错误日志在log4j下error.log,有故障可以在里面排查 例:可用命令 tail -f /home/tomcat-clbs/log4j/info.log 实时打印日志查看启动情况(也可将-f改为-100查看倒数100行日志,行数可根据情况自行修改)
3).Tomcat停止方法同上②.Redis停止方法相同,输入ps -ef | grep tomcat 列出tomcat服务,再kill掉。 web端以下端口均启动为正常: tcp 0 0 0.0.0.0:53997 0.0.0.0:* LISTEN 25262/java tcp6 0 0 127.0.0.1:8005 :::* LISTEN 25262/java tcp6 0 0 :::6982 :::* LISTEN 25262/java tcp6 0 0 :::6983 :::* LISTEN 25262/java tcp6 0 0 :::8999 :::* LISTEN 25262/java tcp6 0 0 :::8009 :::* LISTEN 25262/java tcp6 0 0 127.0.0.1:57036 :::* LISTEN 25262/java tcp6 0 0 :::8080 :::* LISTEN 25262/java tcp6 0 0 :::44692 :::* LISTEN 25262/java tcp6 0 0 :::42808 :::* LISTEN 25262/java tcp6 0 0 :::5209 :::* LISTEN 25262/java
3.解析服务为docker-f3 docker ps 可通过以上命令查看是否运行解析服务,正常为4个服务。 协议解析以下端口均启动为正常: tcp6 0 0 :::6972 :::* LISTEN 32055/docker-proxy tcp6 0 0 :::6975 :::* LISTEN 32036/docker-proxy tcp6 0 0 :::6977 :::* LISTEN 32024/docker-proxy tcp6 0 0 :::6978 :::* LISTEN 32007/docker-proxy tcp6 0 0 :::6979 :::* LISTEN 31994/docker-proxy tcp6 0 0 :::6981 :::* LISTEN 31971/docker-proxy tcp6 0 0 :::9093 :::* LISTEN 31853/docker-proxy tcp6 0 0 :::53996 :::* LISTEN 31907/docker-proxy tcp6 0 0 :::6990 :::* LISTEN 31947/docker-proxy tcp6 0 0 :::53998 :::* LISTEN 31840/docker-proxy tcp6 0 0 :::53999 :::* LISTEN 32252/docker-proxy tcp6 0 0 :::6992 :::* LISTEN 31893/docker-proxy tcp6 0 0 :::6993 :::* LISTEN 31879/docker-proxy tcp6 0 0 :::8180 :::* LISTEN 31866/docker-proxy tcp6 0 0 :::8023 :::* LISTEN 31933/docker-proxy tcp6 0 0 :::8761 :::* LISTEN 31713/docker-proxy
启动: cd /home/docker/ docker-compose up -d 停止: docker kill $(docker ps -aq) 重启:
docker restart $(docker ps -aq)
日志路径: /home/f3/ 4.broker服务 服务路径: cd /root/broker 或者cd /home/broker (正常部署为该路径)
启动命令: ./ broker.sh
停止方法: 输入命令ps -ef |grep broker 列出broker服务,使用命令kill -9 服务ID 结束服务。 broker以下端口均启动为正常: tcp6 0 0 :::5210 :::* LISTEN 860/java tcp6 0 0 :::5211 :::* LISTEN 860/java
|