#1 Le 11/01/2010, à 18:48
- patfrat
Centreon, Nagios et monitoring du RAID sur un serveur DELL
Bonjour,
J'ai mis en place du monitoring sur 2 serveurs DELL PowerEdge 2950.
J'ai installé pour ce faire Nagios, Centreon ainsi que Dell OpenManage ... pas de soucis à ce niveau là.
si besoin, je ferai un tuto !
Par contre, j'ai du Raid5 + 1 Hotspare sur mes 6 disques durs et j'ai le check qui me renvoit un CRITICAL dans Nagios !
J'ai cru voir quelque part sur le Net que celà pouvait venir d'un problème de firmware.
Mes 6 disques sont monitorés aussi et me disent tous OK !
Est-ce que quelqu'un a déjà eu ce soucis ?
Mon check dans centreon :
$USER1$/check_snmp -H $HOSTADDRESS$ -C $ARG1$ -P 2c -o .1.3.6.1.4.1.674.10893.1.20.130.1.1.5.1 -r 1
-C pour passer la community snmp
-P 2c pour la version snmp utilisée
-o pour l'OID provenant des mibs de DELL via l'agent de Dell OpenManage
-r 1 pour dire que le bon statut est 1 = OK*
Là, je suis en 6 = Degraded !!!
Merci d'avance !
Hors ligne
#2 Le 11/01/2010, à 19:07
- francoisp31
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
ne serai ce pas simplement a cause du 5+1,qui perturberai le resultat par snmp ?
par hazard ?
j'ai eu des surprises aussi avec certains status avec snmp ... parfois....a cause de configs un peu spéciales.... (LVM over RAID) par exemple....
Que les puces d'un millier de chiens galleux infeste le cul de celui qui osera vous gacher ne serai ce
qu'une seule journée de votre vie et que les bras lui soient trop court pour qu'il puisse se le gratter.
Hors ligne
#3 Le 11/01/2010, à 20:06
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
J'y pensais justement au 5+1 ... je vais consulter la doc de DELL ...
Comme on dit, une fois qu'on a tout essayé, il faut lire le mode d'emploi !
Hors ligne
#4 Le 11/01/2010, à 23:39
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Bon, je me documente, je me documente :
http://support.ipmonitor.com/mibs_byoidtree.aspx
Dernière modification par patfrat (Le 11/01/2010, à 23:39)
Hors ligne
#5 Le 11/01/2010, à 23:57
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Voilà, c'est çà que je teste :
http://support.ipmonitor.com/mibs/STORA … ollerState
The current condition of the controller's subsystem (which includes any devices connected to it.)
Et qui me donne un joli 6 = Critical
Hors ligne
#6 Le 12/01/2010, à 00:17
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Ha,j'ai peut-être une piste :
Cet OID : 1.3.6.1.4.1.674.10893.1.20.130.1.1.7.1
me donne le pourcentage actuel de reconstruction du Raid soit ci-dessous 30 %
iso.3.6.1.4.1.674.10893.1.20.130.1.1.7.1=30
ET quand le Raid est en reconstruction, apparemment, l'Oid 1.3.6.1.4.1.674.10893.1.20.130.1.1.5.1
qui définit l'état du Raid se met en Critical soit 6
iso.3.6.1.4.1.674.10893.1.20.130.1.1.5.1=6
Bon ... à voir maintenant comment se passe la reconstruction, le temps que çà prend ...
Ce qui est bizarre, du coup, c'est que çà stagne à 30% sur les deux serveurs ???
Alors, est-ce dû au Raid5 + 1 Hotspare ?
Sachant que j'ai testé le Spare sur un des serveurs :
1.3.6.1.4.1.674.10893.1.20.130.4.1.22.6
6e disque identifié comme globalhotSpare (iso.3.6.1.4.1.674.10893.1.20.130.4.1.22.6=3)
Par contre, l'autre serveur, sur lequel j'ai récemment changé un disque, aucun n'est identifié en Spare .... ???? encore un autre problème ?
Bref, je commence à comprendre mais je n'ai pas fini d'apprendre !
Et pour infos : Dell OpenManage me permet d'avoir qq infos dont ceci
Premier Serveur
$ omreport storage controller
Controller PERC 6/i Integrated (Embedded)
Controllers
ID : 0
Status : Non-Critical
Name : PERC 6/i Integrated
Slot ID : Embedded
State : Degraded
Firmware Version : 6.1.1-0047
Minimum Required Firmware Version : Not Applicable
Driver Version : 00.00.03.10-rc5
Minimum Required Driver Version : 00.00.03.20
Number of Connectors : 2
Rebuild Rate : 30%
BGI Rate : 30%
Check Consistency Rate : 30%
Reconstruct Rate : 30%
Alarm State : Not Applicable
Cluster Mode : Not Applicable
SCSI Initiator ID : Not Applicable
Cache Memory Size : 256 MB
Patrol Read Mode : Auto
Patrol Read State : Stopped
Patrol Read Rate : 30%
Patrol Read Iterations : 42
Abort check consistency on error : Disabled
Allow Revertible Hot Spare and Replace Member : Enabled
Auto replace member on predictive failure : Disabled
Load balance : Auto
Deuxième Serveur (qui a subi le remplacement de disque)
$ omreport storage controller
Controller PERC 6/i Integrated (Embedded)
Controllers
ID : 0
Status : Non-Critical
Name : PERC 6/i Integrated
Slot ID : Embedded
State : Degraded
Firmware Version : 6.0.2-0002
Minimum Required Firmware Version : 6.1.1-0034
Driver Version : 00.00.03.10-rc5
Minimum Required Driver Version : 00.00.03.20
Number of Connectors : 2
Rebuild Rate : 30%
BGI Rate : 30%
Check Consistency Rate : 30%
Reconstruct Rate : 30%
Alarm State : Not Applicable
Cluster Mode : Not Applicable
SCSI Initiator ID : Not Applicable
Cache Memory Size : 256 MB
Patrol Read Mode : Auto
Patrol Read State : Stopped
Patrol Read Rate : 30%
Patrol Read Iterations : 89
Abort check consistency on error : Not Applicable
Allow Revertible Hot Spare and Replace Member : Not Applicable
Auto replace member on predictive failure : Not Applicable
Load balance : Not Applicable
J'ai raté qqchose lors du changement de disque ?
Autres infos :
Premier serveur :
$ omreport storage vdisk controller=0
Virtual Disk 0 on Controller PERC 6/i Integrated (Embedded)
Controller PERC 6/i Integrated (Embedded)
ID : 0
Status : Ok
Name : Virtual Disk 0
State : Ready
Progress : Not Applicable
Layout : RAID-5
Size : 1,115.50 GB (1197759004672 bytes)
Device Name : /dev/sda
Type : SAS
Read Policy : No Read Ahead
Write Policy : Write Back
Cache Policy : Not Applicable
Stripe Element Size : 64 KB
Disk Cache Policy : Disabled
Deuxième serveur :
$ omreport storage vdisk controller=0
Virtual Disk 0 on Controller PERC 6/i Integrated (Embedded)
Controller PERC 6/i Integrated (Embedded)
ID : 0
Status : Ok
Name : Raid5
State : Ready
Progress : Not Applicable
Layout : RAID-5
Size : 1,115.50 GB (1197759004672 bytes)
Device Name : /dev/sda
Type : SAS
Read Policy : No Read Ahead
Write Policy : Write Back
Cache Policy : Not Applicable
Stripe Element Size : 64 KB
Disk Cache Policy : Disabled
Dernière modification par patfrat (Le 12/01/2010, à 00:33)
Hors ligne
#7 Le 12/01/2010, à 00:46
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Bon, apparemment, un problème de driver MegaRaid ... à mettre à jour et Dell ne fait pas de support pour Ubuntu Server !!!! Rha, zut !
bon, j'ai trouvé un post sur les forums Ubuntu : http://ubuntuforums.org/showthread.php?t=719556&page=3
Je vais tenter !!!
Hors ligne
#8 Le 12/01/2010, à 13:07
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
ha, j'avance à petits pas.
J'ai réussi à accéder à Dell OpenManage sur https://localhost:1311
J'ai ce message :
The current firmware version 6.0.2-0002 is older than the required firmware version 6.1.1-0034 for a controller of model 0x1F0C: Controller 0 (PERC 6/i Integrated)
Par contre, j'aimerai bien reconstruire mon hotspare sur un des serveurs sur lequel j'ai dû changé un disque à chaud ! Celà a bien fonctionner mais plus de Hotspare ?!?
Peut-être cette commande pourrait faire l'affaire ??? Si quelqu'un s'y connait ?
Pour faire du 6e disque de mon Raid5+1 un hotspare :
omconfig storage vdisk action=assigndedicatedhotspare controller=0 vdisk=0 adisk=0:5 assign=yes
Est-ce que ça peut se faire à chaud ?
Hors ligne
#9 Le 12/01/2010, à 23:55
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Bon, je me réponds à moi-même mais en même temps ça peut aider ...
J'ai compilé le module megaraid_sas.ko choper sur le site de Dell
Et sur mes deux serveurs quasi identiques, 2 Dell Poweredge 2950, j'ai deux résultats différents :
Le premier : en kernel 2.6.24-24-server
ID : 0
Status : Non-Critical
Name : PERC 6/i Integrated
Slot ID : Embedded
State : Degraded
Firmware Version : 6.0.2-0002
Minimum Required Firmware Version : 6.1.1-0034
Driver Version : 00.00.03.21
Driver Ok maintenant mais problème de version de firmware
Le deuxième : en kernel 2.6.24-25-server
$ omreport storage controller
ID : 0
Status : Ok
Name : PERC 6/i Integrated
Slot ID : Embedded
State : Ready
Firmware Version : 6.1.1-0047
Minimum Required Firmware Version : Not Applicable
Driver Version : 00.00.03.21
Driver OK, firmware OK
Bon, les différences :
- pas le même firmware
- pas le même noyau
Et pourtant, les mêmes serveurs mais pas reçus en même temps.
Sur le premier serveur, je n'arrive pas à avoir en update le kernel 2.6.24-25-server comme sur le deuxième ??? Pourquoi ?
Et comment faire une maj du firmware ?
Dernière modification par patfrat (Le 12/01/2010, à 23:55)
Hors ligne
#10 Le 13/01/2010, à 01:48
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Oh je viens de tomber sur çà :
http://linux.dell.com/wiki/index.php/Re … y/firmware
Un dépôt pour Ubuntu et autres sytèmes pour les firmwares Dell !!!
Yes ! Je vais essayer.
Hors ligne
#11 Le 13/01/2010, à 13:00
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Bon, j'ai résolu déjà mon problème de Hotspare perdu.
Pou rappel, ma config : 6 disques de 300Go, Raid5 sur 5 disque + 1 hotspare.
En fait, suite au crash d'un disque, le hotspare qui était en position 1:0:5 a pris le relais et s'est donc positionner dans le Raid5.
J'ai remis un nouveau disque qui était alors déclaré Prêt mais non utilisé dans le Raid, en position 0:0:1 du controller=0, et non utilisé non plus en hotspare.
Il a juste fallu que je flag ce disque en ligne de commande avec les commandes de Dell OpenManage comme ceci :
# omconfig storage adisk action=assignglobalhotspare controller=0 adisk=0:0:1 assign=yes
Pour avoir des infos sur les disques, le crontrôlleur ...
$ omreport storage controller
$ omreport storage adisk controller=0
Donc, là, j'ai retrouvé mon Hotspare.
Il me reste à faire la mise à jour des firmwares sur un des serveurs.
J'ai réussi à mettre le dépôt DELL !
Sur le serveur qui est Ok :
# update_firmware
Running system inventory...
Searching storage directory for available BIOS updates...
Checking System BIOS for PowerEdge 2950 - 2.5.0
Available: system_bios(ven_0x1028_dev_0x01b2) - 2.3.1
Did not find a newer package to install that meets all installation checks.
This system does not appear to have any updates available.
No action necessary.
Sur celui que je dois mettre à jour :
# update_firmware
Running system inventory...
Searching storage directory for available BIOS updates...
Checking System BIOS for PowerEdge 2950 - 2.2.6
Available: system_bios(ven_0x1028_dev_0x01b2) - 2.3.1
Found Update: system_bios(ven_0x1028_dev_0x01b2) - 2.3.1
Found firmware which needs to be updated.
Please run the program with the '--yes' switch to enable BIOS update.
UPDATE NOT COMPLETED!
Bon, faut que je me lance mais le serveur est en production.
Va falloir attendre tard le soir pour le faire
Dernière modification par patfrat (Le 14/01/2010, à 19:48)
Hors ligne
#12 Le 14/01/2010, à 18:31
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Ha, super, 2 jours après avoir contacté DELL via le site de support, j'ai reçu un coup de fil d'un technicien pour mon problème de hotspare que j'avais résolu entre temps mais j'en ai profité pour lui demander comment mettre à jour les firmwares de mes serveurs PowerEdge 2950.
bien m'en a pris puisque j'ai reçu directement par email les liens que voici :
Perc6i : donc pour le RAID
http://ftp.us.dell.com/SAS-RAID/RAID_FR … 216024.BIN
BIOS :
http://ftp.us.dell.com/bios/PE2950_BIOS_LX_2.6.1.BIN
BMC :
http://ftp.us.dell.com/esm/BMC_FRMW_LX_R202152.BIN
Et le dernier drivers pour le Perc6i :
http://ftp.us.dell.com/SAS-RAID/megarai … 840.tar.gz
Je m'en vais de ce pas préparer la Maj.
Par contre, sur le conseil du technicien, il faut d'abord mettre à jour le driver avant le firmware pour le Raid.
Ensuite, Bios et BMC, peu importe l'ordre.
Alors, pour ce faire, je vais probablement devoir compiler le driver.
Puis, pour le firmware, il va falloir booter sur le livecd de Dell basé sur CentOS pour pouvoir appliquer les .BIN car non prévus pour être éxécutés depuis une Debian comme Ubuntu.
LiveCD : http://linux.dell.com/files/openmanage- … 022109.iso
Je mettrai la procédure en ligne ici dès que j'aurai réussi à le faire.
Je pense que je ferai une doc sur mon blog et dans le wiki par la suite.
Merci au technicien de DELL, de son pseudo pilote32, très sympa !
Dernière modification par patfrat (Le 15/01/2010, à 09:58)
Hors ligne
#13 Le 14/01/2010, à 19:10
- Elemmire
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Merci pour le retour d'expérience très instructif !!!
Hors ligne
#14 Le 14/01/2010, à 19:53
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Ha au fait, entre temps, j'ai mis à jour le bios d'un des serveurs :
update_firmware --yes
puis reboot et c'est OK
Cette commande provient des dépôts DELL précédemment ajoutés.
Par contre, les versions de driver et firmwares proposés par le technicien DELL ne sont pas dans ces dépôts pour mes PowerEdge 2950 donc il va falloir y aller à la main.
De rien, Elemmire, pour le retour d'expérience, ça sert aux autres mais aussi à moi-même de laisser des traces sur ce forum et bientôt le wiki je pense car si il faut le refaire un jour, je saurai où trouver la solution.
Pour la petite histoire avec le technicien DELL, en faisant des recherches sur le Net pour pouvoir me répondre, il est tombé sur ce post ! On en a rigolé ensemble
Dernière modification par patfrat (Le 14/01/2010, à 19:53)
Hors ligne
#15 Le 15/01/2010, à 10:38
- Elemmire
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
J'ai regardé les dépots pour les firmware DELL mais je vois surtout des infos pour RH ou suse ...
J'ai pas su quoi mettre comme dépot pour debian/ubuntu ...
Si tu as la solution je te serai TRES reconnaissant de me la chuchoter à l'oreille ... :-)
Hors ligne
#16 Le 15/01/2010, à 11:02
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Pour ajouter ces fameux dépôts :
wget -q -O - http://linux.dell.com/repo/firmware/bootstrap.cgi | bash
Ensuite, installation de quelques paquets
aptitude install firmware-addon-dell
aptitude install $(bootstrap_firmware -a)
La deuxième ligne (bootstrap ...) installe normalement les firmwares mais là, je n'ai pas grand chose pour mes serveurs ...
puis :
update_firmware
pour vérifier si une maj est dispo.
et
update_firmware --yes
pour la faire et enfin reboot.
Voilà ensuite ce que j'ai dans /etc/apt/sources.list.d/ :
dell-firmware.list
deb http://linux.dell.com/repo cross-distro dell-firmware
dell-software.list
deb http://linux.dell.com/repo hardy dell-software
deb-src http://linux.dell.com/repo hardy dell-software
C'est vrai que pour Ubuntu, pas grand grand chose mais ça a le mérite d'exister.
Sinon, y'a ce dépôt pour Dell OpenManage :
Ajout de la clé :
wget -O - http://ftp.sara.nl/debian_sara.asc | apt-key add -
Au choix Dell OMSA 5 ou 6, pas les deux...
Ajout du dépôt pour Dell OMSA 5 :
deb ftp://ftp.sara.nl/pub/sara-omsa dell sara
Ajout du dépôt pour Dell OMSA 6 :
deb ftp://ftp.sara.nl/pub/sara-omsa dell6 sara
Et voir ce site par exemple pour configurer le tout :
http://sadsoftware.blogspot.com/2008/08 … buntu.html
Dernière modification par patfrat (Le 15/01/2010, à 11:04)
Hors ligne
#17 Le 15/01/2010, à 13:38
- Elemmire
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Je suis pas bien réveillé moi ce matin ... même pas vu les répertoire des dépôts
Sinon pour info, le script automatique pour installer les dépôts et les clés GPG ne fonctionne pas sur Debian ... et j'arrive pas à installer sur Debian même en rentrant les dépôts et la clé à la main ...
Je te tiens au courant !
Hors ligne
#18 Le 26/10/2010, à 16:31
- janolap1
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Salut, Merci de ce retour d'expérience.
Nous essayons Centreon couplé avec Dell OpenManage.
Mais nous nous posons quelques questions :
- Pourquoi utiliser Centreon ET Dell OpenManage ? Qu'apporte ce dernier ?
- Utilisez-vous au quotidien les outils fournis par Dell OpenManage ou ne vous servez-vous que de Centreon comme console de supervision ?
- Comment faites-vous pour ajouter un nouveau serveur ? Faut-il le mettre des deux côtés (Centreon ET Dell OpenManage) ?
Jean CARTIER
Dernière modification par janolap1 (Le 26/10/2010, à 16:32)
Hors ligne
#19 Le 26/10/2010, à 17:15
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
En fait, je n'utilise Dell Open Manage que pour remonter les infos sur le Raid et les disques via l'agent Dell qui s'active...
Je supervise le tout avec Centreon : matériel, services, flux ...
De ce que je me souvienne quand j'ai mis çà en place ... je l'ai noté qq part sur un wiki mais faut que je le retrouve
L'installation de Dell openManage m'a permis d'avoir les OIDs nécessaires à la mise en place des contrôles par SNMP sur les disques.
Voilà, je ne me sers pas du tout de Dell Open Manage en fait
Hors ligne
#20 Le 26/10/2010, à 17:18
- janolap1
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Merci patfrat,
Mais est-ce que centreon est aussi précis et "parlant" que Dell Openmanage Serveur Administrator ; par exemple lorsqu'une panne est détectée, celui-ci permet de voir en français quel composant précis est en cause.
Jean
Hors ligne
#21 Le 26/10/2010, à 17:36
- patfrat
Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL
Ha, centreon, faut se configurer les services à la main ... mais si on le fait bien, sur les bons OIDs en snmp, oui, c'est causant.
je fais du monitoring par exemple sur mon RAID, mes disques, le Spare, mais aussi sur des services comme Mysql, Apache, Ruby, Rsync, samba .. et également sur la taille occupée des disques, de la Ram, sur les flux de mes cartes réseaux ... c'est un travail de longue haleine mais ça marche.
Y'a une distribution qui m'a l'air pas mal et qui intègre centreon qui s'appelle FAN Full Automated Nagios, à tester...
http://fannagioscd.sourceforge.net/drupal/
Je ne suis pas toujours Full Ubuntu ... à l'époque, j'avais installé la surcouche centreon pour tester sur Ubuntu et j'aime bien le look ...
Mais la distribution FAN m'a l'air plus simple car contenant déjà des services pré-configurés.
Hors ligne