Es macht Sinn, prinzipiell alles an Hardware zu monitoren was irgendwie ausfallen kann worunter auch ein RAID-Controller oder die Platten fallen, die an diesem angeschlossen sind.
Gerade mit Controllern von Adaptec ist es nicht ganz so einfach, wenn man nicht entsprechende Kniffs kennt.
So führt ein
smartctl /dev/sda -a
zu einem
smartctl 5.41 2011-06-09 r3365 [i686-linux-2.6.32.43-0.4.1.xs1.6.10.734.170748xen] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net Vendor: Adaptec Product: HDD-RAID1 Revision: V1.0 User Capacity: 1,497,859,358,720 bytes [1.49 TB] Logical block size: 512 bytes scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0 >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
was natürlich nicht wirklich viele Informationen sind, die man beim Monitoring verwerten kann. Um also an die Informationen der angeschlossenen Platte zu kommen, ist es notwendig, folgenden Befehl zu verwenden:
smartctl /dev/sg1 -d sat -a
Über diesen „Umweg“ kommt man an sonst gewohnte Informationen. Damit nun Munin weiß, dass wenn es z.B. das Device sg0 überwachen soll, hier weitere Parameter zur Abfrage der Werte braucht, muss man in der Datei munin-node in /etc/munin/plugin-conf.d folgenden Abschnitt hinzufügen:
[smart_sg0] env.smartargs -d sat -a
Wichtig ist ebenfalls, das man folgenden Abschnitt einfügt:
[smart_*] user root group disk
Ohne diesen Abschnitt wird das Plugin nicht mit den passenden Berechtigungen aufgerufen und scheitert daran, die Informationen abzurufen. Wenn alles soweit konfiguriert ist, kann ein erfolgreicher Aufruf des Plugins wie folgt aussehen:
[root@isrvlx01-h0 plugin-conf.d]# munin-run smart_sg1 Head_Flying_Hours.value 100 Spin_Retry_Count.value 100 Command_Timeout.value 100 Reported_Uncorrect.value 100 smartctl_exit_status.value 0 Offline_Uncorrectable.value 100 Seek_Error_Rate.value 084 End_to_End_Error.value 100 High_Fly_Writes.value 044 Total_LBAs_Read.value 100 Current_Pending_Sector.value 100 Total_LBAs_Written.value 100 UDMA_CRC_Error_Count.value 200 Temperature_Celsius.value 042 Raw_Read_Error_Rate.value 111 Hardware_ECC_Recovered.value 049 Power_Cycle_Count.value 100 Start_Stop_Count.value 100 Reallocated_Sector_Ct.value 097 Power_On_Hours.value 084 Spin_Up_Time.value 100 Airflow_Temperature_Cel.value 058
Möchte man nun auch noch die Festplatten-Temperatur via hddtemp_smartctl überwachen, muss folgender Abschnitt dazu:
[hddtemp_smartctl] user root env.drives sg1 sg2 env.type_sg1 sat env.type_sg2 sat
Wenn man anschließend via
[root@isrvlx01-h0 plugin-conf.d]# munin-run hddtemp_smartctl
das hddtemp_smartctl Plugin testet, sollte etwas raus kommen wie das hier:
sg1.value 42 sg2.value 38
Wäre soweit das Thema Monitoring Festplatten erschlagen, muss nur noch der Controller irgendwie gecheckt werden. Hiefür lädt man die Datei http://download.adaptec.com/raid/icp/storage_manager/ism_linux_x86_v5_30_17509.rpm herunter und installiert die mit
rpm -Uhv ism_linux_x86_v5_30_17509.rpm
Anschließend finde man in /usr ein Verzeichnis StorMan wo sich div. Dateien befinden. Mit
/usr/StorMan/arcconf getconfig 1
kann man testen, ob der Controller korrekt erkannt wird. Wenn alles passt, kann man folgendes Monitoring-Skript herunterladen und in den Ordner /etc/munin/plugins kopieren: http://download.prodigy7.de/files/utilitys/munin/arctemp