Lire la température d’un serveur

, par  Olivier Duquesne aka DaffyDuke , popularité : 1%

Sur une Netra X1 / SunFire V100 ....

 Installer la LOM (Lights Out Management), ce sont les trois packages SUNWlomm , SUNWlomr & SUNWlomu disponibles sur le cd additionnel de Sun Solaris .
 Rebooter pour créer le device /dev/lom (reboot -- -r)
 Puis lire la LOM :

lom -t
System Temperature Sensors:
 1        Enclosure 27 degC : warning 67 degC : shutdown 72 degC
System Over-temperature Sensors:
 1             CPU status=ok

D’autres options sont disponibles pour voir l’état des CPUs, des ventilateurs et de l’eventlog

[daffy@admin ~/etc]$ ./read_lom hostname
11/20/2005 08:11:58 host reset
11/15/2005 12:06:36 host reset
04/24/2005 12:38:09 host reset
12/29/2004 20:11:50 host power off
12/29/2004 20:11:40 host power on
09/21/2004 11:32:36 host power off
09/21/2004 11:28:34 host power on
1/18/2006 18:15:11 GMT LOM time reference
01/19/2006 00:40:43 host reset
1/19/2006 8:56:26 GMT LOM time reference
========================================
LOMlite alarm states:
Alarm1=off
Alarm2=off
Alarm3=on
Fault LED=off
========================================
Fans:
1 OK speed 72%
========================================
Supply voltages:
 1               5V status=ok
 2              3V3 status=ok
 3             +12V status=ok
 4         VDD core status=ok
System status flags (circuit breakers):
 1             USB0 status=ok
 2             USB1 status=ok
 3              SCC status=ok
========================================
System Temperature Sensors:
 1        Enclosure 27 degC : warning 67 degC : shutdown 72 degC
System Over-temperature Sensors:
 1             CPU status=ok
========================================

read_lom est un petit shell à moi qui permet d’afficher la date du jour de l’évènement au lieu de +643j21h etc ...

Sur une Netra T1 105 / AC 200

Dommage, la sonde de température n’est pas fournie. Néanmoins, la commande LOM détaillée ci-dessus donne tout de même quelques informations non négligeables :

lwinf1101:root} lom -a
PSUs:
1 OK

Fans:
1 OK speed 95%
2 OK speed 92%
3 OK speed 94%

LOMlite configuration settings:
serial escape character=#
serial event reporting=off
alarm3 mode=user controlled
firmware version=2.1
firmware checksum=7ca3
product revision=0.0
product ID=Netra t1 105

LOMlite Event Log:
 Fault LED OFF
 wdog trig
 Fault LED ON
 power off
 power on
 power off
 power on
 power off
 power on
 Fault LED OFF
first fatal error
 Fan 1 failed

LOMlite alarm states:
Alarm1=off
Alarm2=off
Alarm3=on
Fault LED=off

LOMlite watchdog (ASR) settings:
Watchdog=on
Hardware reset=off
Timeout=40 s

C’est clairement dit, pas de degré à lire ici :

lwinf1101:root} lom -t
Temperature monitoring not supported by this device

Et pourtant, l’info est renseignée dans l’eeprom , zarbi non ?

lwinf1101:root} eeprom
[...]
shutdown-temperature=74
warning-temperature=69
[...]

Sur un DL-380 G4 et autres serveurs HP/Compaq

 Installer hpasm (rpm disponible depuis le site hp.com) :
Description : The hp System Health Application and Insight Management Agents package provides extended capabilities to ProLiant Servers. These capabilities include monitoring of temperature thresholds, fan, processor and memory failures. Should a parameter be out of normal operating conditions, the Linux operating system will be automatically shutdown. The hp Advanced Server Management Application(hpasmd) is the interface to the Advanced Server Management (ASM) ASIC. This application will work with both the ProLiant ASM (0x0E11A0F1) and the ProLiant iLO Advance Server Management (0x0E11B203) ASICs. The hpasmd also provides an interface so other software can log events to the hp ProLiant Integrated Management Log (IML).
hp Server, Storage and Foundation Agents for Linux provide a full spectrum of management data. This package includes the Server Standard Equipment and Health Agent for hp Servers. It also contains the hp Web Agent. This information is available using the hp Insight Manager Console, any Internet browser, or other management applications using SNMP.
 Il n’est pas nécessaire de rebooter mais il faut démarrer le démon hpasm :

[root@mwinf1801 ~]# /etc/init.d/hpasm start
   Starting Proliant System Health Monitor (hpasmd):
Starting Foundation Agents (cmafdtn): cmathreshd cmahostd cmapeerd
   Starting Threshold agent (cmathreshd):
   Starting Host agent (cmahostd):
   Starting SNMP Peer (cmapeerd):

Starting Server Agents (cmasvr): cmastdeqd cmahealthd
   Starting Standard Equipment agent (cmastdeqd):
   Starting Health agent (cmahealthd):

Starting Storage Agents (cmastor): cmaeventd cmaidad cmafcad cmaided cmascsid
   Starting Storage Event Logger (cmaeventd):
   Starting IDA agent (cmaidad):
   Starting FCA agent (cmafcad):
   Starting IDE agent (cmaided):
   Starting SCSI agent (cmascsid):

hpasm:  Server Management is enabled

La définition des modules se trouve dans le fichier /opt/compaq/cma.conf .
 Pour lire l’information, il faut utiliser le client HP :

[root@mwinf1801 ~]# hpasmcli -s "show temp"

Sensor   Location              Temp       Threshold
------   --------              ----       ---------
#0        SYSTEM_BD             -          -
#1        PROCESSOR_ZONE       34C/93F    62C/143F
#2        CPU#1                37C/98F    80C/176F
#3        I/O_ZONE             37C/98F    60C/140F
#4        CPU#2                40C/104F   80C/176F
#5        POWER_SUPPLY_BAY     28C/82F    53C/127F

On peut lire l’Eventlog avec la commande

[root@mwinf1801 ~]#hpasmcli -s "show iml"
Event: 0 Added: 08/26/2004 00:03
CAUTION: POST Messages - POST Error: 1785-Drive Array not Configured.

Event: 1 Added: 05/18/2005 15:45
CAUTION: POST Messages - POST Error: 1726-Drive Array - Array Accelerator Memory Size Change Detected.

Event: 2 Added: 05/18/2005 15:45
CAUTION: POST Messages - POST Error: 1794-Drive Array - Array Accelerator Battery Charge Low.

Event: 3 Added: 05/20/2005 06:20
CRITICAL: ASR - ASR Detected by System ROM.

Sur une machine quelconque sous Linux

 La solution, c’est l’ACPI (Advanced Configuration and Power Interface), sous Debian : apt-get install acpi acpid
 Il faut ensuite charger les modules kernels pour gérer la thempérature (modprobe thermal). On peut en charger d’autres , en démarrant le démon acpid :

daffy@colerpia:~$ sudo /etc/init.d/acpid start
Loading ACPI modules:
    battery
    ac
    processor
    button
    fan
    thermal
Starting Advanced Configuration and Power Interface daemon: 


 Pour lire ensuite les information :

daffy@colerpia:~$ acpi -t
     Thermal 1: ok, 51.0 degrees C

D’autres informations sont disponibles suivant le firmware, les possibilités du kernel, la gestion de la carte mère de la machine :

daffy@colerpia:~$ acpi -V
     Battery 1: charged, 100%, rate information unavailable.
     Thermal 1: ok, 50.0 degrees C
  AC Adapter 1: on-line


 L’avantage de Linux, c’est le système de fichier virtuel /proc (exemple) :

daffy@colerpia:~$ more /proc/acpi/thermal_zone/TZN0/*
::::::::::::::
/proc/acpi/thermal_zone/TZN0/cooling_mode
::::::::::::::
cooling mode:            active
::::::::::::::
/proc/acpi/thermal_zone/TZN0/polling_frequency
::::::::::::::
<polling disabled>
::::::::::::::
/proc/acpi/thermal_zone/TZN0/state
::::::::::::::
state:                   ok
::::::::::::::
/proc/acpi/thermal_zone/TZN0/temperature
::::::::::::::
temperature:             49 C
::::::::::::::
/proc/acpi/thermal_zone/TZN0/trip_points
::::::::::::::
critical (S5):           90 C
passive:                 80 C: tc1=4 tc2=3 tsp=100 devices=0xcf7ee560
active[0]:               70 C: devices=0xcf67ce60

Apendix

 Sur les vieilles machines, l’ACPI ne fonctionne pas, c’est alors l’APM (Advanced Power Management). Les informations de température ne sont alors pas disponibles :

daffy@ebola:~$ apm --verbose
APM BIOS 1.2 (kernel driver 1.16ac)
On-line, no system battery

 D’autres outils de monitoring de la gestion de l’énergie sont disponible, notamment pour les disques durs IDE , avec hdparm

daffy@ebola:~$ sudo hdparm -t /dev/hde

/dev/hde:
 Timing buffered disk reads:   68 MB in  3.09 seconds =  22.03 MB/sec

daffy@ebola:~$ sudo hdparm -i /dev/hde

/dev/hde:

 Model=QUANTUM FIREBALLP LM20.5, FwRev=A35.0700, SerialNo=884013362901
 Config={ HardSect NotMFM HdSw>15uSec Fixed DTR>10Mbs }
 RawCHS=16383/16/63, TrkSize=32256, SectSize=21298, ECCbytes=4
 BuffType=DualPortCache, BuffSize=1900kB, MaxMultSect=16, MultSect=off
 CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=40132503
 IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
 PIO modes:  pio0 pio1 pio2 pio3 pio4
 DMA modes:  mdma0 mdma1 mdma2
 UDMA modes: udma0 udma1 udma2 udma3 *udma4
 AdvancedPM=no WriteCache=enabled
 Drive conforms to: ATA/ATAPI-5 T13 1321D revision 1:  ATA/ATAPI-1 ATA/ATAPI-2 ATA/ATAPI-3 ATA/ATAPI-4 ATA/ATAPI-5

 * signifies the current active mode

Ou encore les lsmensors , mais si quelqu’un arrive à faire marcher ça , qu’il me fasse signe :-)

Publications Derniers articles publiés