# 监控目标

  • 发现问题:故障报警
  • 定位问题:报警内容分析故障具体原因
  • 解决问题:按故障的优先级解决故障
  • 问题总结:故障原因及整改措施,避免以后再出现问题

# 监控理解

  • 不间断的实时监控
  • 实时查看系统当前状态
  • 保证服务可靠性和安全性
  • 保证业务稳定运行

# 监控的维度

  1. 硬件
    • SNMP:路由交换机监控
    • IPMI:服务器温度及其它
  2. 操作系统监控
    • cpu负载,上下文切换
    • 内存使用率,
    • 网络
    • 磁盘读写,磁盘使用率,磁盘inode使用率
    • 端口占用
  3. 中间件监控:
    • Nginx:Status
    • Mysql:percona官方工具
  4. 网络监控:smokeping
  5. 安全监控
    • 云厂商自带
    • iptables,硬件防火墙,厂商DDOS
    • 系统:权限、密码、备份、恢复等基础方案
    • Nginx+Lua实现Web层面防火墙或OpenResly
  6. Web监控
    • 页面延迟
    • JS响应时间,下载时间
  7. 日志监控
    • Nginx:50x,40x
  8. 业务监控:重要的业务指标监控
  9. 流量分析:百度统计、Google统计、Piwik
  10. 业务服务
    • 微服务维度监控:CPU、内存、cpu时间、磁盘、qps、web容器、线程池,数据库连接池,线程状态与占用
    • JVM:cpu、内存、gc、吞吐量、线程栈
    • 系统整体:日志、调用链路

# 监控流程

  • 采集
  • 存储
  • 分析
  • 展示
  • 报警
  • 处理

# 安全防护:等保三

  • 物理安全:保证物理的安全,如位置、机房访问;访问控制,防火防盗,防电磁,保障用电等
  • 网络安全:网络层面安全,如访问控制,安全审计,入侵防范,恶意代码防范,设备防范等
  • 主机安全:如身份鉴别,访问控制,安全审计,信息保护(退出时清理信息)、入侵防范等
  • 应用安全:如数据完整性,数据保密性,数据备份和恢复
上次更新: : 5 months ago