Per Server-Eye (Monitoring) wurde uns von einem Kundenserver gemeldet, das es einen Lüfterausfall gäbe. Bei der Überprüfung mittels BMC fiel allerdings kein Fehler auf. Alle Lüfter waren aktiv und innerhalb ihrer Toleranzen, im Log des BMC war zudem nichts vermerkt.

Ein Neustart des Server-Eye Sensors half nichts. Zur Sicherheit wurde direkt auf dem Server mit dem ipmiutil nochmals eine Abfrage durchgeführt:

C:\Program Files (x86)\Server-Eye\service\970\ipmi>ipmiutil health
ipmiutil health ver 3.12
BMC manufacturer = 000a3f (ASUS), product = 0e73
BMC version = 2.01, IPMI v2.0
BIOS Version = 3103
IPMI driver type = 10 (ms)
Power State = 00 (S0: working)
Selftest status = 0055 (OK)
Chassis Status = 01 01 48 00 (on, see below)
chassis_power = on
pwr_restore_policy = stay_off
last_power_event = ACfailed
chassis_intrusion = inactive
front_panel_lockout = inactive
drive_fault = false
cooling_fan_fault = true
Power On Hours = 23086 hours (961 days)
BMC LAN Channels = 1 8
Chan 1 AuthTypes = MD2 MD5 Straight_Passwd OEM
ipmiutil health, completed successfully

Wie man sieht, exakt der gemeldete Fehler. Nach einem Neustart des BMC (“Maintainance – Reset BMC”) sowie ein paar Minuten Geduld zeigte eine erneute Abfrage keinen Fehler mehr:

C:\Program Files (x86)\Server-Eye\service\970\ipmi>ipmiutil health
ipmiutil health ver 3.12
BMC manufacturer = 000a3f (ASUS), product = 0e73
BMC version = 2.01, IPMI v2.0
BIOS Version = 3103
IPMI driver type = 10 (ms)
Power State = 00 (S0: working)
Selftest status = 0055 (OK)
Chassis Status = 01 01 40 00 (on, see below)
chassis_power = on
pwr_restore_policy = stay_off
last_power_event = ACfailed
chassis_intrusion = inactive
front_panel_lockout = inactive
drive_fault = false
cooling_fan_fault = false
Power On Hours = 23086 hours (961 days)
BMC LAN Channels = 1 8
Chan 1 AuthTypes = MD2 MD5 Straight_Passwd OEM
ipmiutil health, completed successfully

Der Server-Eye Sensor meldete dann etwas später, das alles wieder in Ordnung sei. Was allerdings auch vorkommt ist, das seitens Server-Eye im Rahmen von Sensor-Updates Fehler unterlaufen und dies zu Fehlalarmen führt.