F3平台(v3.8.X)日常基础维护说明
本帖最后由 廖浩廷 于 2019-12-17 18:39 编辑F3平台在日常使用过程中,若出现故障,可以按照以下各项逐一检查各项服务器,因有很多关联关系需要按照顺序检查处理:
一、集群端1.集群端由Ambari进行管理,运行在主节点上,主进程名为ambari-server,启动、停止、重启命令依次为:ambari-server startambari-server stopambari-server restart
2.集群端Ambari管理地址为http://主节点IP:8080/,初始用户名和密码为admin主节点为集群第一台服务器,8080端口为默认端口。
3.Ambari状态、使用如下图所示,1.为集群所有服务状态,2.为启动所有服务,3.为停止所有服务;1.中所有服务为绿色,没有任何红色标记就是运行正常,若有红色报错,可尝试停止所有服务后再启动所有服务。
4.flink项目(一般为集群最后一台服务器)各项目存放路径:/cluster/default
各监控服务启动、停止、重启命令依次为:
adas-0.1.0:ADAS(主动安全)项目;cd /cluster/default/adas-0.1.0sh bin/launcher startsh bin/launcher stopsh bin/launcher restart
alarm-0.1.0:平台报警项目;cd /cluster/default/alarm-0.1.0/sh bin/launcher startsh bin/launcher stopsh bin/launcher restart
positional-0.1.0:平台位置数据服务;cd /cluster/default/positional-0.1.0/sh bin/launcher startsh bin/launcher stopsh bin/launcher restart
查询已提交yarn任务:yarnapplication -list -appStates running
停止指定yarn任务
yarn application -kill appid
重启步骤:先停监控程序(各项目launcher),再停yarn任务,再执行监控即可。或者直接停yarn任务。查询是否运行正常:需开放zwlbs2节点8088端口,在ui中进行查看。(8088端口为高危端口,勿直接映射,勿长期开放)启动监控后,查看tail -f logs/monitor.log,若发现卡在检查点,请执行以下操作:su hdfs
列出检查点下文件:
hdfs dfs -ls /flink/streamingload/default
删除检查点下某文件(仅删除启动失败,一直恢复检查点的项目文件,XX为项目名称,如:adas*)
hdfs dfs -rm -r /flink/streamingload/default/XX
flink入库查询:cd /usr/hdp/2.5.0.0-1245/kafka/
查询已创建主题
./bin/kafka-topics.sh --zookeeper zwlbs1:2181 -list
查询该主题是否有收到数据
./bin/kafka-console-consumer.sh --zookeeper zwlbs1:2181 -topic outputflink
5.服务器性能监控服务(每台服务器都有)启动:cd /home/server-monitornohup java -jarmonitor-0.0.1-SNAPSHOT.jar &停止:输入ps -ef | grep monitor列出monitor服务,再kill掉。
6.esjob项目(集群每台服务器都有)启动:cd /home/esjobnohup java -jar zw-schedule.jar &停止:输入ps -ef | grep zw-schedule.jar列出zw-schedule.jar服务,再kill掉。
二、web端
1.F3平台正常需要确保集群端所有服务、Java、Mysql、Redis、Slapd、vsftpd、nginx均正常运行。2). Mysql、Redis、Slapd检查方法为输入命令 netstat-lntp 检查服务端口是否启动来判定服务是否正常,如下:
Redis服务端口(其中6378和6379前面的IP为本机IP):tcp 0 0 0.0.0.0:26378 0.0.0.0:* LISTEN 5520/redis-sentineltcp 0 0 192.168.24.50:6378 0.0.0.0:* LISTEN 5516/redis-server 1tcp 0 0 0.0.0.0:26379 0.0.0.0:* LISTEN 5512/redis-sentineltcp 0 0 192.168.24.50:6379 0.0.0.0:* LISTEN 5508/redis-server 1
Slapd服务端口:tcp 0 0 0.0.0.0:389 0.0.0.0:* LISTEN 2099/slapdtcp6 0 0 :::389 :::* LISTEN 2099/slapd
Mysql服务端口:tcp6 0 0 :::3306 :::* LISTEN 1702/mysqld
vsftpd服务端口:tcp6 0 0 :::21 :::* LISTEN 3310/vsftpd
nginx服务端口:tcp 0 0 0.0.0.0:8799 0.0.0.0:* LISTEN 3887/nginx: mastertcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 3887/nginx: master
3).服务相关命令①.Mysql启动、停止、重启命令以此为:service mysqld startservice mysqld stopservice mysqld restart
②.Redis启动命令为:/opt/redis-3.2.8/src/redis-server /opt/redis-3.2.8/redis.conf/opt/redis-3.2.8/src/redis-sentinel /opt/redis-3.2.8/sentinel.conf --protected-mode no/opt/redis-slaver/src/redis-server /opt/redis-slaver/redis.conf/opt/redis-slaver/src/redis-sentinel /opt/redis-slaver/sentinel.conf --protected-mode noRedis停止方法如下:输入命令ps -ef |grep redis 列出redis服务,使用命令kill -9 服务ID 结束服务。4个都需要kill。
③.slapd服务启动、停止、重启命令依次为:systemctl start slapdsystemctl stop slapdsystemctl restart slapd
④.vsftpd服务启动、停止、重启命令依次为:systemctl start vsftpdsystemctl stop vsftpdsystemctl restart vsftpd
⑤.nginx服务启动、停止命令依次为:/opt/nginx/sbin/nginx/opt/nginx/sbin/nginx -s stop
2.视频服务,视频功能检查方法为输入命令 netstat -lntp 检查服务端口是否启动来判定服务是否正常,如下:tcp 0 0 0.0.0.0:7970 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7971 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7972 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7973 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7974 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7975 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7976 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7977 0.0.0.0:* LISTEN 2416/MediaForwardSetcp 0 0 0.0.0.0:7978 0.0.0.0:* LISTEN 2416/MediaForwardSe视频服务器启动、停止命令依次为:/home/ZWMediaServerRelease/run.sh/home/ZWMediaServerRelease/stop.sh
2. web服务为tomcat1)web服务启动命令:/home/tomcat-clbs/bin/startup.sh
2).日志路劲如下:/home/tomcat-clbs/log4j/info.log注:错误日志在log4j下error.log,有故障可以在里面排查例:可用命令 tail -f /home/tomcat-clbs/log4j/info.log 实时打印日志查看启动情况(也可将-f改为-100查看倒数100行日志,行数可根据情况自行修改)
3).Tomcat停止方法同上②.Redis停止方法相同,输入ps -ef | grep tomcat 列出tomcat服务,再kill掉。web端以下端口均启动为正常:tcp 0 0 0.0.0.0:53997 0.0.0.0:* LISTEN 25262/java tcp6 0 0 127.0.0.1:8005 :::* LISTEN 25262/java tcp6 0 0 :::6982 :::* LISTEN 25262/java tcp6 0 0 :::6983 :::* LISTEN 25262/java tcp6 0 0 :::8999 :::* LISTEN 25262/java tcp6 0 0 :::8009 :::* LISTEN 25262/java tcp6 0 0127.0.0.1:57036 :::* LISTEN 25262/java tcp6 0 0 :::8080 :::* LISTEN 25262/java tcp6 0 0 :::44692 :::* LISTEN 25262/java tcp6 0 0 :::42808 :::* LISTEN 25262/java tcp6 0 0 :::5209 :::* LISTEN 25262/java
3.解析服务为docker-f3docker ps可通过以上命令查看是否运行解析服务,正常为4个服务。协议解析以下端口均启动为正常:tcp6 0 0 :::6972 :::* LISTEN32055/docker-proxytcp6 0 0 :::6975 :::* LISTEN32036/docker-proxytcp6 0 0 :::6977 :::* LISTEN32024/docker-proxytcp6 0 0 :::6978 :::* LISTEN32007/docker-proxytcp6 0 0 :::6979 :::* LISTEN31994/docker-proxytcp6 0 0 :::6981 :::* LISTEN31971/docker-proxytcp6 0 0 :::9093 :::* LISTEN31853/docker-proxytcp6 0 0 :::53996 :::* LISTEN31907/docker-proxytcp6 0 0 :::6990 :::* LISTEN31947/docker-proxytcp6 0 0 :::53998 :::* LISTEN31840/docker-proxytcp6 0 0 :::53999 :::* LISTEN 32252/docker-proxytcp6 0 0 :::6992 :::* LISTEN31893/docker-proxytcp6 0 0 :::6993 :::* LISTEN31879/docker-proxy tcp6 0 0 :::8180 :::* LISTEN31866/docker-proxytcp6 0 0 :::8023 :::* LISTEN 31933/docker-proxytcp6 0 0 :::8761 :::* LISTEN31713/docker-proxy
启动:cd /home/docker/docker-compose up -d停止:docker kill $(docker ps -aq)重启:
docker restart $(docker ps -aq)
日志路径:/home/f3/4.broker服务服务路径:cd /root/broker或者cd /home/broker(正常部署为该路径)
启动命令:./ broker.sh
停止方法:输入命令ps -ef |grep broker 列出broker服务,使用命令kill -9 服务ID 结束服务。 broker以下端口均启动为正常:tcp6 0 0 :::5210 :::* LISTEN 860/java tcp6 0 0 :::5211 :::* LISTEN 860/java
{:9_286:} 单服务器版的应该差不多吧?有没有相应的说明? paratek 发表于 2019-9-13 10:21
单服务器版的应该差不多吧?有没有相应的说明?
单服务器版本,维护是一样的。
只是几台服务器上的程序,都在一台上
页:
[1]