中位技术支持 发表于 2019-4-23 15:06:22

F3平台(v3.8.X)日常基础维护说明

本帖最后由 廖浩廷 于 2019-12-17 18:39 编辑

F3平台在日常使用过程中,若出现故障,可以按照以下各项逐一检查各项服务器,因有很多关联关系需要按照顺序检查处理:
一、集群端1.集群端由Ambari进行管理,运行在主节点上,主进程名为ambari-server,启动、停止、重启命令依次为:ambari-server startambari-server stopambari-server restart
2.集群端Ambari管理地址为http://主节点IP:8080/,初始用户名和密码为admin主节点为集群第一台服务器,8080端口为默认端口。
3.Ambari状态、使用如下图所示,1.为集群所有服务状态,2.为启动所有服务,3.为停止所有服务;1.中所有服务为绿色,没有任何红色标记就是运行正常,若有红色报错,可尝试停止所有服务后再启动所有服务。   
                         4.flink项目(一般为集群最后一台服务器)各项目存放路径:/cluster/default
各监控服务启动、停止、重启命令依次为:
adas-0.1.0:ADAS(主动安全)项目;cd /cluster/default/adas-0.1.0sh bin/launcher startsh bin/launcher stopsh bin/launcher restart
alarm-0.1.0:平台报警项目;cd /cluster/default/alarm-0.1.0/sh bin/launcher startsh bin/launcher stopsh bin/launcher restart
positional-0.1.0:平台位置数据服务;cd /cluster/default/positional-0.1.0/sh bin/launcher startsh bin/launcher stopsh bin/launcher restart
查询已提交yarn任务:yarnapplication -list -appStates running
停止指定yarn任务
yarn application -kill appid

重启步骤:先停监控程序(各项目launcher),再停yarn任务,再执行监控即可。或者直接停yarn任务。查询是否运行正常:需开放zwlbs2节点8088端口,在ui中进行查看。(8088端口为高危端口,勿直接映射,勿长期开放)启动监控后,查看tail -f logs/monitor.log,若发现卡在检查点,请执行以下操作:su hdfs
列出检查点下文件:
hdfs dfs -ls /flink/streamingload/default
删除检查点下某文件(仅删除启动失败,一直恢复检查点的项目文件,XX为项目名称,如:adas*)
hdfs dfs -rm -r /flink/streamingload/default/XX

flink入库查询:cd /usr/hdp/2.5.0.0-1245/kafka/
查询已创建主题
./bin/kafka-topics.sh --zookeeper zwlbs1:2181 -list
查询该主题是否有收到数据
./bin/kafka-console-consumer.sh --zookeeper zwlbs1:2181 -topic outputflink

5.服务器性能监控服务(每台服务器都有)启动:cd /home/server-monitornohup java -jarmonitor-0.0.1-SNAPSHOT.jar &停止:输入ps -ef | grep monitor列出monitor服务,再kill掉。
6.esjob项目(集群每台服务器都有)启动:cd /home/esjobnohup java -jar zw-schedule.jar &停止:输入ps -ef | grep zw-schedule.jar列出zw-schedule.jar服务,再kill掉。

二、web端
1.F3平台正常需要确保集群端所有服务、Java、Mysql、Redis、Slapd、vsftpd、nginx均正常运行。2). Mysql、Redis、Slapd检查方法为输入命令 netstat-lntp 检查服务端口是否启动来判定服务是否正常,如下:
Redis服务端口(其中6378和6379前面的IP为本机IP):tcp       0   0   0.0.0.0:26378          0.0.0.0:*      LISTEN   5520/redis-sentineltcp       0   0   192.168.24.50:6378   0.0.0.0:*      LISTEN   5516/redis-server 1tcp       0   0   0.0.0.0:26379          0.0.0.0:*      LISTEN      5512/redis-sentineltcp       0   0   192.168.24.50:6379   0.0.0.0:*      LISTEN   5508/redis-server 1
Slapd服务端口:tcp       0   0   0.0.0.0:389         0.0.0.0:*       LISTEN   2099/slapdtcp6   0   0   :::389               :::*         LISTEN      2099/slapd
Mysql服务端口:tcp6      0   0   :::3306                :::*         LISTEN      1702/mysqld
vsftpd服务端口:tcp6      0   0   :::21                  :::*         LISTEN      3310/vsftpd
nginx服务端口:tcp       0    0 0.0.0.0:8799         0.0.0.0:*       LISTEN   3887/nginx: mastertcp       0    0 0.0.0.0:80             0.0.0.0:*       LISTEN      3887/nginx: master
3).服务相关命令①.Mysql启动、停止、重启命令以此为:service mysqld startservice mysqld stopservice mysqld restart
②.Redis启动命令为:/opt/redis-3.2.8/src/redis-server /opt/redis-3.2.8/redis.conf/opt/redis-3.2.8/src/redis-sentinel /opt/redis-3.2.8/sentinel.conf --protected-mode no/opt/redis-slaver/src/redis-server /opt/redis-slaver/redis.conf/opt/redis-slaver/src/redis-sentinel /opt/redis-slaver/sentinel.conf --protected-mode noRedis停止方法如下:输入命令ps -ef |grep redis 列出redis服务,使用命令kill -9 服务ID 结束服务。4个都需要kill。
③.slapd服务启动、停止、重启命令依次为:systemctl start slapdsystemctl stop slapdsystemctl restart slapd
④.vsftpd服务启动、停止、重启命令依次为:systemctl start vsftpdsystemctl stop vsftpdsystemctl restart vsftpd
⑤.nginx服务启动、停止命令依次为:/opt/nginx/sbin/nginx/opt/nginx/sbin/nginx -s stop
2.视频服务,视频功能检查方法为输入命令 netstat -lntp 检查服务端口是否启动来判定服务是否正常,如下:tcp       0      0   0.0.0.0:7970         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7971         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7972         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7973         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7974         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7975         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7976         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7977         0.0.0.0:*            LISTEN   2416/MediaForwardSetcp       0      0   0.0.0.0:7978         0.0.0.0:*            LISTEN   2416/MediaForwardSe视频服务器启动、停止命令依次为:/home/ZWMediaServerRelease/run.sh/home/ZWMediaServerRelease/stop.sh
2. web服务为tomcat1)web服务启动命令:/home/tomcat-clbs/bin/startup.sh
2).日志路劲如下:/home/tomcat-clbs/log4j/info.log注:错误日志在log4j下error.log,有故障可以在里面排查例:可用命令 tail -f /home/tomcat-clbs/log4j/info.log 实时打印日志查看启动情况(也可将-f改为-100查看倒数100行日志,行数可根据情况自行修改)
3).Tomcat停止方法同上②.Redis停止方法相同,输入ps -ef | grep tomcat 列出tomcat服务,再kill掉。web端以下端口均启动为正常:tcp      0   0   0.0.0.0:53997         0.0.0.0:*      LISTEN   25262/java         tcp6       0   0   127.0.0.1:8005          :::*         LISTEN   25262/java         tcp6       0   0   :::6982               :::*         LISTEN   25262/java         tcp6       0   0   :::6983               :::*         LISTEN   25262/java         tcp6       0   0   :::8999               :::*         LISTEN   25262/java         tcp6       0   0   :::8009               :::*         LISTEN   25262/java         tcp6       0   0127.0.0.1:57036         :::*         LISTEN   25262/java         tcp6       0   0   :::8080               :::*         LISTEN   25262/java         tcp6       0   0   :::44692                :::*         LISTEN   25262/java         tcp6       0   0   :::42808                :::*         LISTEN   25262/java         tcp6       0   0   :::5209               :::*         LISTEN   25262/java

3.解析服务为docker-f3docker ps可通过以上命令查看是否运行解析服务,正常为4个服务。协议解析以下端口均启动为正常:tcp6      0      0 :::6972         :::*         LISTEN32055/docker-proxytcp6      0      0 :::6975         :::*         LISTEN32036/docker-proxytcp6      0      0 :::6977         :::*         LISTEN32024/docker-proxytcp6      0      0 :::6978         :::*         LISTEN32007/docker-proxytcp6      0      0 :::6979         :::*         LISTEN31994/docker-proxytcp6      0      0 :::6981         :::*         LISTEN31971/docker-proxytcp6      0      0 :::9093         :::*         LISTEN31853/docker-proxytcp6      0      0 :::53996      :::*         LISTEN31907/docker-proxytcp6      0      0 :::6990         :::*         LISTEN31947/docker-proxytcp6      0      0 :::53998      :::*         LISTEN31840/docker-proxytcp6      0      0 :::53999      :::*         LISTEN 32252/docker-proxytcp6      0      0 :::6992         :::*         LISTEN31893/docker-proxytcp6      0      0 :::6993         :::*         LISTEN31879/docker-proxy    tcp6       0       0 :::8180         :::*          LISTEN31866/docker-proxytcp6       0      0 :::8023      :::*         LISTEN 31933/docker-proxytcp6      0      0 :::8761         :::*          LISTEN31713/docker-proxy
启动:cd /home/docker/docker-compose up -d停止:docker kill $(docker ps -aq)重启:
docker restart $(docker ps -aq)
日志路径:/home/f3/4.broker服务服务路径:cd /root/broker或者cd /home/broker(正常部署为该路径)
启动命令:./ broker.sh
停止方法:输入命令ps -ef |grep broker 列出broker服务,使用命令kill -9 服务ID 结束服务。 broker以下端口均启动为正常:tcp6      0      0   :::5210          :::*         LISTEN      860/java            tcp6      0      0   :::5211          :::*         LISTEN      860/java

dongfei 发表于 2019-4-24 13:39:14

{:9_286:}

paratek 发表于 2019-9-13 10:21:34

单服务器版的应该差不多吧?有没有相应的说明?

中位技术支持 发表于 2019-9-17 10:31:38

paratek 发表于 2019-9-13 10:21
单服务器版的应该差不多吧?有没有相应的说明?

单服务器版本,维护是一样的。
只是几台服务器上的程序,都在一台上
页: [1]
查看完整版本: F3平台(v3.8.X)日常基础维护说明