Monitoring eines Adaptec-Controllers (AACRAID) und dessen Festplatten mit Munin

Es macht Sinn, prinzipiell alles an Hardware zu monitoren was irgendwie ausfallen kann worunter auch ein RAID-Controller oder die Platten fallen, die an diesem angeschlossen sind.

Gerade mit Controllern von Adaptec ist es nicht ganz so einfach, wenn man nicht entsprechende Kniffs kennt.

So führt ein

smartctl /dev/sda -a

zu einem

smartctl 5.41 2011-06-09 r3365 [i686-linux-2.6.32.43-0.4.1.xs1.6.10.734.170748xen] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               Adaptec
Product:              HDD-RAID1
Revision:             V1.0
User Capacity:        1,497,859,358,720 bytes [1.49 TB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

was natürlich nicht wirklich viele Informationen sind, die man beim Monitoring verwerten kann. Um also an die Informationen der angeschlossenen Platte zu kommen, ist es notwendig, folgenden Befehl zu verwenden:

smartctl /dev/sg1 -d sat -a

Über diesen „Umweg“ kommt man an sonst gewohnte Informationen. Damit nun Munin weiß, dass wenn es z.B. das Device sg0 überwachen soll, hier weitere Parameter zur Abfrage der Werte braucht, muss man in der Datei munin-node in /etc/munin/plugin-conf.d folgenden Abschnitt hinzufügen:

[smart_sg0]
env.smartargs -d sat -a

Wichtig ist ebenfalls, das man folgenden Abschnitt einfügt:

[smart_*]
user root
group disk

Ohne diesen Abschnitt wird das Plugin nicht mit den passenden Berechtigungen aufgerufen und scheitert daran, die Informationen abzurufen. Wenn alles soweit konfiguriert ist, kann ein erfolgreicher Aufruf des Plugins wie folgt aussehen:

[root@isrvlx01-h0 plugin-conf.d]# munin-run smart_sg1
Head_Flying_Hours.value 100
Spin_Retry_Count.value 100
Command_Timeout.value 100
Reported_Uncorrect.value 100
smartctl_exit_status.value 0
Offline_Uncorrectable.value 100
Seek_Error_Rate.value 084
End_to_End_Error.value 100
High_Fly_Writes.value 044
Total_LBAs_Read.value 100
Current_Pending_Sector.value 100
Total_LBAs_Written.value 100
UDMA_CRC_Error_Count.value 200
Temperature_Celsius.value 042
Raw_Read_Error_Rate.value 111
Hardware_ECC_Recovered.value 049
Power_Cycle_Count.value 100
Start_Stop_Count.value 100
Reallocated_Sector_Ct.value 097
Power_On_Hours.value 084
Spin_Up_Time.value 100
Airflow_Temperature_Cel.value 058

Möchte man nun auch noch die Festplatten-Temperatur via hddtemp_smartctl überwachen, muss folgender Abschnitt dazu:

[hddtemp_smartctl]
user root
env.drives sg1 sg2
env.type_sg1 sat
env.type_sg2 sat

Wenn man anschließend via

[root@isrvlx01-h0 plugin-conf.d]# munin-run hddtemp_smartctl

das hddtemp_smartctl Plugin testet, sollte etwas raus kommen wie das hier:

sg1.value 42
sg2.value 38

Wäre soweit das Thema Monitoring Festplatten erschlagen, muss nur noch der Controller irgendwie gecheckt werden. Hiefür lädt man die Datei http://download.adaptec.com/raid/icp/storage_manager/ism_linux_x86_v5_30_17509.rpm herunter und installiert die mit

rpm -Uhv ism_linux_x86_v5_30_17509.rpm

Anschließend finde man in /usr ein Verzeichnis StorMan wo sich div. Dateien befinden. Mit

/usr/StorMan/arcconf getconfig 1

kann man testen, ob der Controller korrekt erkannt wird. Wenn alles passt, kann man folgendes Monitoring-Skript herunterladen und in den Ordner /etc/munin/plugins kopieren: http://download.prodigy7.de/files/utilitys/munin/arctemp

Das könnte Dich auch interessieren...

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.