监控目标
- 发现问题:故障报警
- 定位问题:报警内容分析故障具体原因
- 解决问题:按故障的优先级解决故障
- 问题总结:故障原因及整改措施,避免以后再出现问题
监控理解
- 不间断的实时监控
- 实时查看系统当前状态
- 保证服务可靠性和安全性
- 保证业务稳定运行
监控的维度
- 硬件
- SNMP:路由交换机监控
- IPMI:服务器温度及其它
- 操作系统监控
- cpu负载,上下文切换
- 内存使用率,
- 网络
- 磁盘读写,磁盘使用率,磁盘inode使用率
- 端口占用
- 中间件监控:
- Nginx:Status
- Mysql:percona官方工具
- 网络监控:smokeping
- 安全监控
- 云厂商自带
- iptables,硬件防火墙,厂商DDOS
- 系统:权限、密码、备份、恢复等基础方案
- Nginx+Lua实现Web层面防火墙或OpenResly
- Web监控
- 日志监控
- 业务监控:重要的业务指标监控
- 流量分析:百度统计、Google统计、Piwik
- 业务服务
- 微服务维度监控:CPU、内存、cpu时间、磁盘、qps、web容器、线程池,数据库连接池,线程状态与占用
- JVM:cpu、内存、gc、吞吐量、线程栈
- 系统整体:日志、调用链路
监控流程
安全防护:等保三
- 物理安全:保证物理的安全,如位置、机房访问;访问控制,防火防盗,防电磁,保障用电等
- 网络安全:网络层面安全,如访问控制,安全审计,入侵防范,恶意代码防范,设备防范等
- 主机安全:如身份鉴别,访问控制,安全审计,信息保护(退出时清理信息)、入侵防范等
- 应用安全:如数据完整性,数据保密性,数据备份和恢复