Zabbix 선택 배경

Considerations on IT Infrastructure Monitoring

HPE Experiences & Knowledge DB

Performance

성능

  • CPU/Memory high utilization
  • Network bandwidth usage
  • Packet loss rate
  • Interface error rate
  • Number of tcp connections is anomaly high for this day of the week
  • Aggregate throughput of core routers is low

Availability

가용성

  • Free disk space is low
  • System status is in warning/critical state
  • Device temperature is too high / too low
  • Power supply is in critical state
  • Fan is in critical state
  • No SNMP data collection
  • Cluster status

Management

관리

  • New components added or removed
  • Network module is added, removed or replaced
  • Firmware upgraded
  • Device serial number has changed
  • Interface changed to lower speed or half-duplex mode
  • Configuration backup
Monitoring Items for High Performance Computing

HPE Best Practice

CPU
  • Load average
  • CPU idle/usage
  • CPU utilization data per individual process
Memory
  • Free/used memory
  • Swap/pagefile utilization
Disk
  • Space free/used
  • Read and write I/O
Service
  • Process status/memory usage
  • Service status (ssh, ldap, ftp, http)
  • Windows service status
  • DNS resolution
  • TCP/UDP connectivity,
  • TCP/UDP response time
File
  • File size/time, File exists
  • Checksum
  • RegExp search
H/W
  • Sensor reading
  • BMC (HPE iLO, Dell iDRAC, etc)
  • Temperature, Power (Watt)
  • Chassis/Fan/Chipset/Drives/DIMM
  • PCI/USB devices (Controller)
  • Firmware/Driver (NIC, HBA, Controller)
Other
  • Log file monitoring
  • Kernel (Max no. file, Max no. process)
  • System uptime, Users connected
  • Cluster file/process/service/package
Monitoring Solutions Analysis

Open source + HPE solutions

Zabbix 동작 원리

Zabbix 이용한 HPE ProLiant 모니터링 방안

Data collection methods – Agent(OS) + Agentless(SNMP, IPMI)

Zabbix 홈페이지 – Agent 모니터링 항목

https://www.zabbix.com/documentation/3.0/manual/config/items/itemtypes/zabbix_agent

Zabbix 홈페이지 – OS별 agent 모니터링 항목

https://www.zabbix.com/documentation/3.0/manual/appendix/items/supported_by_platform

위 두 내용 한 장 정리

Excel 파일 “Zabbix_Template 전체 정리"

Zabbix 이용한 HPE ProLiant 모니터링 방안

Agent (by OS)

Zabbix 이용한 HPE ProLiant Gen8/9 모니터링 방안

Agentless (by SNMP, IPMI) using Template

Agentless 모니터링 항목 예시 (SNMP & IPMI)

Excel 파일 “Zabbix_Template 전체 정리"

HPE iLO SNMP OID(MIB) 값

Excel 파일 “MIB Public Gen10"

HPE iLO IPMI Sensor ID 값

PDF 파일 “HPE iLO IPMI User Guide“

Zabbix Template 예시

Zabbix 홈페이지 내 각 vendor Template 게시판 https://share.zabbix.com/cat-server-hardware/hp

XML 파일 “Template HP iLO4 SNMP Agentless”, “Template HP DL380 Gen9 IPMI”

Excel 파일 “Zabbix Template HPE Server 분석”, “Zabbix Template Supermicro Server 분석”

Zabbix 이용한 HPE ProLiant Gen8/9 모니터링 방안

HPE ProLiant Template 분석

Zabbix 이용한 HPE ProLiant Gen10 모니터링 방안

IPMI 및 SNMP 통한 integration 방안

Appendix. IT 인프라 운영 모델

IT Infra 운영
제안하는 IT Infra 운영 방식

Traditional maintenance approaches fall short

IT Infra 운영
IT Infra 운영

Predictive 운영 방식

전통적 analog 정기 점검 방식
  • 서버실 육안 점검: amber 불 들어온 서버 확인
  • HPE CMU 툴 활용: red 불 들어온 서버 확인
  • 운영팀과 협업: 문제 서버 console 접속 확인
Digital 실시간 모니터링 방식과 월간 비교 (3개월)
  • 양쪽 방식이 집계한 문제 서버 목록 비교 (1)
  • 양쪽 방식이 수집한 장애 예방 항목 비교 (2)
  • (1), (2) 통해 digital 방식의 집합이 더 큼을 증명

Zabbix 실시간 모니터링 시스템
  • Dashboard
  • 호스트 상태: 호스트 그룹별, 그룹 안에서 어떤 호스트가 장애 있는지 없는지 이름, 숫자 표시
  • 시스템 상태: 호스트 그룹별, 그룹 안에서 호스트 개별, 경고, 가벼운 장애, 중증 장애 심각한 장애 상세 내용 표시
Zabbix 실시간 모니터링 항목 범위
  • (1) System Status, (2) Fan, (3) Memory, (4) Network, (5) Power supplies, (6) Processor, (7) Storage, (8) Temperature, (11) Host OS
  • 갱신 간격 300초, 이력 데이터 보관 90일
  • “hpeilo_snmp_engine”
    -H -C {$SNMP_COM} -o [1~11]

1. 월간 장애 보고
  • 심각도, 발생 시각, 복구 시각, 호스트명, 장애 기간
  • 월별 장애 추이: seasonality 파악
  • 호스트 그룹별 추이: 그룹별 추이 파악
  • 유틸리티 서버, GPU 서버(mgpu, pgpu, pngpu), HPC 서버(HT, CAE, SMRC)
  • 개선 활동 (예. 전진 파트 수정/변경/추가/삭제)
2. Availability 보고서 (가동 보고서)
  • 모든 호스트별 월간 가용률 (예. 100% 99.8%)
  • 해당 장애 요약
3. Top 100 발생 Trigger 보고서
  • 호스트 불문 어떤 장애 항목 가장 많았는지
  • Template 수정, Item 추가/수정/삭제, Trigger 추가/수정/삭제, Threshold 조정 등

시스템/사람 의존성 탈피 (Risk 줄이기)
  • Zabbix 모니터링 시스템 교육
  • 동작 방식, 현재 적용된 내역, 튜닝 포인트
  • 해당 내용 문서화 및 인수 인계
운영 방식 향후 로드맵
  • 현재 Testing 기간: ~ 4월 (약 2,698대)
  • 서버 대상 안정화: ~ 5, 6월
  • 스토리지 대상 확대: 5, 6월 ~
  • 네트워크 대상 확대: 8월~