Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 11/01/2010, à 18:48

patfrat

Centreon, Nagios et monitoring du RAID sur un serveur DELL

Bonjour,
J'ai mis en place du monitoring sur 2 serveurs DELL PowerEdge 2950.
J'ai installé pour ce faire Nagios, Centreon ainsi que Dell OpenManage ... pas de soucis à ce niveau là.
si besoin, je ferai un tuto !
Par contre, j'ai du Raid5 + 1 Hotspare sur mes 6 disques durs et j'ai le check qui me renvoit un CRITICAL dans Nagios !
J'ai cru voir quelque part sur le Net que celà pouvait venir d'un problème de firmware.
Mes 6 disques sont monitorés aussi et me disent tous OK !
Est-ce que quelqu'un a déjà eu ce soucis ?

Mon check dans centreon :

$USER1$/check_snmp -H $HOSTADDRESS$ -C $ARG1$ -P 2c -o .1.3.6.1.4.1.674.10893.1.20.130.1.1.5.1 -r 1

-C pour passer la community snmp
-P 2c pour la version snmp utilisée
-o pour l'OID provenant des mibs de DELL via l'agent de Dell OpenManage
-r 1 pour dire que le bon statut est 1 = OK*

Là, je suis en 6 = Degraded !!!

Merci d'avance !

Hors ligne

#2 Le 11/01/2010, à 19:07

francoisp31

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

ne serai ce pas simplement a cause du 5+1,qui perturberai le resultat par snmp ?
par hazard ?

j'ai eu des surprises aussi avec certains status avec snmp ... parfois....a cause de configs un peu spéciales.... (LVM over RAID) par exemple....


Que les puces d'un millier de chiens galleux infeste le cul de celui qui osera vous gacher ne serai ce
qu'une seule journée de votre vie et que les bras lui soient trop court pour qu'il puisse se le gratter.

Hors ligne

#3 Le 11/01/2010, à 20:06

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

J'y pensais justement au 5+1 ... je vais consulter la doc de DELL ...
Comme on dit, une fois qu'on a tout essayé, il faut lire le mode d'emploi !

Hors ligne

#4 Le 11/01/2010, à 23:39

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Bon, je me documente, je me documente :
http://support.ipmonitor.com/mibs_byoidtree.aspx

Dernière modification par patfrat (Le 11/01/2010, à 23:39)

Hors ligne

#5 Le 11/01/2010, à 23:57

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Voilà, c'est çà que je teste :
http://support.ipmonitor.com/mibs/STORA … ollerState
The current condition of the controller's subsystem (which includes any devices connected to it.)

Et qui me donne un joli 6 = Critical

Hors ligne

#6 Le 12/01/2010, à 00:17

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Ha,j'ai peut-être une piste :
Cet OID : 1.3.6.1.4.1.674.10893.1.20.130.1.1.7.1
me donne le pourcentage actuel de reconstruction du Raid soit ci-dessous 30 %
iso.3.6.1.4.1.674.10893.1.20.130.1.1.7.1=30

ET quand le Raid est en reconstruction, apparemment, l'Oid 1.3.6.1.4.1.674.10893.1.20.130.1.1.5.1
qui définit l'état du Raid se met en Critical soit 6
iso.3.6.1.4.1.674.10893.1.20.130.1.1.5.1=6

Bon ... à voir maintenant comment se passe la reconstruction, le temps que çà prend ...
Ce qui est bizarre, du coup, c'est que çà stagne à 30% sur les deux serveurs ???

Alors, est-ce dû au Raid5 + 1 Hotspare ?

Sachant que j'ai testé le Spare sur un des serveurs :
1.3.6.1.4.1.674.10893.1.20.130.4.1.22.6
6e disque identifié comme globalhotSpare (iso.3.6.1.4.1.674.10893.1.20.130.4.1.22.6=3)

Par contre, l'autre serveur, sur lequel j'ai récemment changé un disque, aucun n'est identifié en Spare .... ???? encore un autre problème ?

Bref, je commence à comprendre mais je n'ai pas fini d'apprendre ! tongue

Et pour infos : Dell OpenManage me permet d'avoir qq infos dont ceci
Premier Serveur

$ omreport storage controller
Controller  PERC 6/i Integrated (Embedded)

Controllers
ID                                            : 0
Status                                        : Non-Critical
Name                                          : PERC 6/i Integrated
Slot ID                                       : Embedded
State                                         : Degraded
Firmware Version                              : 6.1.1-0047
Minimum Required Firmware Version             : Not Applicable
Driver Version                                : 00.00.03.10-rc5

Minimum Required Driver Version               : 00.00.03.20
Number of Connectors                          : 2
Rebuild Rate                                  : 30%
BGI Rate                                      : 30%
Check Consistency Rate                        : 30%
Reconstruct Rate                              : 30%
Alarm State                                   : Not Applicable
Cluster Mode                                  : Not Applicable
SCSI Initiator ID                             : Not Applicable
Cache Memory Size                             : 256 MB
Patrol Read Mode                              : Auto
Patrol Read State                             : Stopped
Patrol Read Rate                              : 30%
Patrol Read Iterations                        : 42
Abort check consistency on error              : Disabled
Allow Revertible Hot Spare and Replace Member : Enabled
Auto replace member on predictive failure     : Disabled
Load balance                                  : Auto

Deuxième Serveur (qui a subi le remplacement de disque)

$ omreport storage controller
Controller  PERC 6/i Integrated (Embedded)

Controllers
ID                                            : 0
Status                                        : Non-Critical
Name                                          : PERC 6/i Integrated
Slot ID                                       : Embedded
State                                         : Degraded
Firmware Version                              : 6.0.2-0002
Minimum Required Firmware Version             : 6.1.1-0034
Driver Version                                : 00.00.03.10-rc5

Minimum Required Driver Version               : 00.00.03.20
Number of Connectors                          : 2
Rebuild Rate                                  : 30%
BGI Rate                                      : 30%
Check Consistency Rate                        : 30%
Reconstruct Rate                              : 30%
Alarm State                                   : Not Applicable
Cluster Mode                                  : Not Applicable
SCSI Initiator ID                             : Not Applicable
Cache Memory Size                             : 256 MB
Patrol Read Mode                              : Auto
Patrol Read State                             : Stopped
Patrol Read Rate                              : 30%
Patrol Read Iterations                        : 89
Abort check consistency on error              : Not Applicable
Allow Revertible Hot Spare and Replace Member : Not Applicable
Auto replace member on predictive failure     : Not Applicable
Load balance                                  : Not Applicable

J'ai raté qqchose lors du changement de disque ?

Autres infos :

Premier serveur :

$ omreport storage vdisk controller=0
Virtual Disk 0 on Controller PERC 6/i Integrated (Embedded)

Controller PERC 6/i Integrated (Embedded)
ID                  : 0
Status              : Ok
Name                : Virtual Disk 0
State               : Ready
Progress            : Not Applicable
Layout              : RAID-5
Size                : 1,115.50 GB (1197759004672 bytes)
Device Name         : /dev/sda
Type                : SAS
Read Policy         : No Read Ahead
Write Policy        : Write Back
Cache Policy        : Not Applicable
Stripe Element Size : 64 KB
Disk Cache Policy   : Disabled

Deuxième serveur :

$ omreport storage vdisk controller=0
Virtual Disk 0 on Controller PERC 6/i Integrated (Embedded)

Controller PERC 6/i Integrated (Embedded)
ID                  : 0
Status              : Ok
Name                : Raid5
State               : Ready
Progress            : Not Applicable
Layout              : RAID-5
Size                : 1,115.50 GB (1197759004672 bytes)
Device Name         : /dev/sda
Type                : SAS
Read Policy         : No Read Ahead
Write Policy        : Write Back
Cache Policy        : Not Applicable
Stripe Element Size : 64 KB
Disk Cache Policy   : Disabled

Dernière modification par patfrat (Le 12/01/2010, à 00:33)

Hors ligne

#7 Le 12/01/2010, à 00:46

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Bon, apparemment, un problème de driver MegaRaid ... à mettre à jour et Dell ne fait pas de support pour Ubuntu Server !!!! Rha, zut !
bon, j'ai trouvé un post sur les forums Ubuntu : http://ubuntuforums.org/showthread.php?t=719556&page=3
Je vais tenter !!!

Hors ligne

#8 Le 12/01/2010, à 13:07

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

ha, j'avance à petits pas.
J'ai réussi à accéder à Dell OpenManage sur https://localhost:1311
J'ai ce message :

The current firmware version 6.0.2-0002 is older than the required firmware version 6.1.1-0034 for a controller of model 0x1F0C: Controller 0 (PERC 6/i Integrated)

Par contre, j'aimerai bien reconstruire mon hotspare sur un des serveurs sur lequel j'ai dû changé un disque à chaud ! Celà a bien fonctionner mais plus de Hotspare ?!?

Peut-être cette commande pourrait faire l'affaire ??? Si quelqu'un s'y connait ?
Pour faire du 6e disque de mon Raid5+1 un hotspare :

omconfig storage vdisk action=assigndedicatedhotspare controller=0 vdisk=0 adisk=0:5 assign=yes

Est-ce que ça peut se faire à chaud ?

Hors ligne

#9 Le 12/01/2010, à 23:55

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Bon, je me réponds à moi-même mais en même temps ça peut aider ...
J'ai compilé le module megaraid_sas.ko choper sur le site de Dell

Et sur mes deux serveurs quasi identiques, 2 Dell Poweredge 2950, j'ai deux résultats différents :

Le premier : en kernel 2.6.24-24-server

ID                                            : 0
Status                                        : Non-Critical
Name                                          : PERC 6/i Integrated
Slot ID                                       : Embedded
State                                         : Degraded
Firmware Version                              : 6.0.2-0002
Minimum Required Firmware Version             : 6.1.1-0034
Driver Version                                : 00.00.03.21

Driver Ok maintenant mais problème de version de firmware


Le deuxième : en kernel 2.6.24-25-server

$ omreport storage controller
ID                                            : 0
Status                                        : Ok
Name                                          : PERC 6/i Integrated
Slot ID                                       : Embedded
State                                         : Ready
Firmware Version                              : 6.1.1-0047
Minimum Required Firmware Version             : Not Applicable
Driver Version                                : 00.00.03.21

Driver OK, firmware OK

Bon, les différences :
- pas le même firmware
- pas le même noyau

Et pourtant, les mêmes serveurs mais pas reçus en même temps.
Sur le premier serveur, je n'arrive pas à avoir en update le kernel 2.6.24-25-server comme sur le deuxième ??? Pourquoi ?
Et comment faire une maj du firmware ?

Dernière modification par patfrat (Le 12/01/2010, à 23:55)

Hors ligne

#10 Le 13/01/2010, à 01:48

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Oh je viens de tomber sur çà :

http://linux.dell.com/wiki/index.php/Re … y/firmware

Un dépôt pour Ubuntu et autres sytèmes pour les firmwares Dell !!!
Yes ! Je vais essayer. tongue

Hors ligne

#11 Le 13/01/2010, à 13:00

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Bon, j'ai résolu déjà mon problème de Hotspare perdu.
Pou rappel, ma config : 6 disques de 300Go, Raid5 sur 5 disque + 1 hotspare.

En fait, suite au crash d'un disque, le hotspare qui était en position 1:0:5 a pris le relais et s'est donc positionner dans le Raid5.
J'ai remis un nouveau disque qui était alors déclaré Prêt mais non utilisé dans le Raid, en position 0:0:1 du controller=0, et non utilisé non plus en hotspare.

Il a juste fallu que je flag ce disque en ligne de commande avec les commandes de Dell OpenManage comme ceci :

# omconfig storage adisk action=assignglobalhotspare controller=0 adisk=0:0:1 assign=yes

Pour avoir des infos sur les disques, le crontrôlleur ...

$ omreport storage controller
$ omreport storage adisk controller=0

Donc, là, j'ai retrouvé mon Hotspare.
Il me reste à faire la mise à jour des firmwares sur un des serveurs.
J'ai réussi à mettre le dépôt DELL !

Sur le serveur qui est Ok :

# update_firmware
Running system inventory...

Searching storage directory for available BIOS updates...
Checking System BIOS for PowerEdge 2950 - 2.5.0
	Available: system_bios(ven_0x1028_dev_0x01b2) - 2.3.1
	Did not find a newer package to install that meets all installation checks.

This system does not appear to have any updates available.
No action necessary.

Sur celui que je dois mettre à jour :

# update_firmware 

Running system inventory...

Searching storage directory for available BIOS updates...
Checking System BIOS for PowerEdge 2950 - 2.2.6
	Available: system_bios(ven_0x1028_dev_0x01b2) - 2.3.1
	Found Update: system_bios(ven_0x1028_dev_0x01b2) - 2.3.1

Found firmware which needs to be updated.


Please run the program with the '--yes' switch to enable BIOS update.
   UPDATE NOT COMPLETED!

Bon, faut que je me lance mais le serveur est en production.
Va falloir attendre tard le soir pour le faire smile

Dernière modification par patfrat (Le 14/01/2010, à 19:48)

Hors ligne

#12 Le 14/01/2010, à 18:31

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Ha, super, 2 jours après avoir contacté DELL via le site de support, j'ai reçu un coup de fil d'un technicien pour mon problème de hotspare que j'avais résolu entre temps big_smile mais j'en ai profité pour lui demander comment mettre à jour les firmwares de mes serveurs PowerEdge 2950.
bien m'en a pris puisque j'ai reçu directement par email les liens que voici :

Perc6i : donc pour le RAID
http://ftp.us.dell.com/SAS-RAID/RAID_FR … 216024.BIN

BIOS :
http://ftp.us.dell.com/bios/PE2950_BIOS_LX_2.6.1.BIN

BMC :
http://ftp.us.dell.com/esm/BMC_FRMW_LX_R202152.BIN

Et le dernier drivers pour le Perc6i :
http://ftp.us.dell.com/SAS-RAID/megarai … 840.tar.gz

Je m'en vais de ce pas préparer la Maj.
Par contre, sur le conseil du technicien, il faut d'abord mettre à jour le driver avant le firmware pour le Raid.
Ensuite, Bios et BMC, peu importe l'ordre.

Alors, pour ce faire, je vais probablement devoir compiler le driver.
Puis, pour le firmware, il va falloir booter sur le livecd de Dell basé sur CentOS pour pouvoir appliquer les .BIN car non prévus pour être éxécutés depuis une Debian comme Ubuntu.

LiveCD : http://linux.dell.com/files/openmanage- … 022109.iso

Je mettrai la procédure en ligne ici dès que j'aurai réussi à le faire.
Je pense que je ferai une doc sur mon blog et dans le wiki par la suite.

Merci au technicien de DELL, de son pseudo pilote32, très sympa !

Dernière modification par patfrat (Le 15/01/2010, à 09:58)

Hors ligne

#13 Le 14/01/2010, à 19:10

Elemmire

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Merci pour le retour d'expérience très instructif !!!

Hors ligne

#14 Le 14/01/2010, à 19:53

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Ha au fait, entre temps, j'ai mis à jour le bios d'un des serveurs :

update_firmware --yes

puis reboot et c'est OK
Cette commande provient des dépôts DELL précédemment ajoutés.
Par contre, les versions de driver et firmwares proposés par le technicien DELL ne sont pas dans ces dépôts pour mes PowerEdge 2950 donc il va falloir y aller à la main.

De rien, Elemmire, pour le retour d'expérience, ça sert aux autres mais aussi à moi-même de laisser des traces sur ce forum et bientôt le wiki je pense car si il faut le refaire un jour, je saurai où trouver la solution.

Pour la petite histoire avec le technicien DELL, en faisant des recherches sur le Net pour pouvoir me répondre, il est tombé sur ce post ! On en a rigolé ensemble big_smile

Dernière modification par patfrat (Le 14/01/2010, à 19:53)

Hors ligne

#15 Le 15/01/2010, à 10:38

Elemmire

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

J'ai regardé les dépots pour les firmware DELL mais je vois surtout des infos pour RH ou suse ...
J'ai pas su quoi mettre comme dépot pour debian/ubuntu ...
Si tu as la solution je te serai TRES reconnaissant de me la chuchoter à l'oreille ... :-)

Hors ligne

#16 Le 15/01/2010, à 11:02

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Pour ajouter ces fameux dépôts :

wget -q -O - http://linux.dell.com/repo/firmware/bootstrap.cgi | bash

Ensuite, installation de quelques paquets

aptitude install firmware-addon-dell
aptitude install $(bootstrap_firmware -a)

La deuxième ligne (bootstrap ...) installe normalement les firmwares mais là, je n'ai pas grand chose pour mes serveurs ...

puis :

update_firmware

pour vérifier si une maj est dispo.
et

update_firmware --yes

pour la faire et enfin reboot.

Voilà ensuite ce que j'ai dans /etc/apt/sources.list.d/ :

dell-firmware.list
deb http://linux.dell.com/repo cross-distro dell-firmware

dell-software.list
deb http://linux.dell.com/repo hardy dell-software
deb-src http://linux.dell.com/repo hardy dell-software

C'est vrai que pour Ubuntu, pas grand grand chose mais ça a le mérite d'exister.
Sinon, y'a ce dépôt pour Dell OpenManage :

Ajout de la clé :

wget -O - http://ftp.sara.nl/debian_sara.asc | apt-key add  -

Au choix Dell OMSA 5 ou 6, pas les deux...
Ajout du dépôt pour Dell OMSA 5 :

deb ftp://ftp.sara.nl/pub/sara-omsa dell sara

Ajout du dépôt pour Dell OMSA 6 :

deb ftp://ftp.sara.nl/pub/sara-omsa dell6 sara

Et voir ce site par exemple pour configurer le tout :
http://sadsoftware.blogspot.com/2008/08 … buntu.html

Dernière modification par patfrat (Le 15/01/2010, à 11:04)

Hors ligne

#17 Le 15/01/2010, à 13:38

Elemmire

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Je suis pas bien réveillé moi ce matin ... même pas vu les répertoire des dépôts
Sinon pour info, le script automatique pour installer les dépôts et les clés GPG ne fonctionne pas sur Debian ... et j'arrive pas à installer sur Debian même en rentrant les dépôts et la clé à la main ...
Je te tiens au courant !

Hors ligne

#18 Le 26/10/2010, à 16:31

janolap1

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Salut, Merci de ce retour d'expérience.

Nous essayons Centreon couplé avec Dell OpenManage.
Mais nous nous posons quelques questions :
- Pourquoi utiliser Centreon ET Dell OpenManage ? Qu'apporte ce dernier ?
- Utilisez-vous au quotidien les outils fournis par Dell OpenManage ou ne vous servez-vous que de Centreon comme console de supervision ?
- Comment faites-vous pour ajouter un nouveau serveur ? Faut-il le mettre des deux côtés (Centreon ET Dell OpenManage) ?

Jean CARTIER

Dernière modification par janolap1 (Le 26/10/2010, à 16:32)

Hors ligne

#19 Le 26/10/2010, à 17:15

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

En fait, je n'utilise Dell Open Manage que pour remonter les infos sur le Raid et les disques via l'agent Dell qui s'active...
Je supervise le tout avec Centreon : matériel, services, flux ...
De ce que je me souvienne quand j'ai mis çà en place ... je l'ai noté qq part sur un wiki mais faut que je le retrouve big_smile
L'installation de Dell openManage m'a permis d'avoir les OIDs nécessaires à la mise en place des contrôles par SNMP sur les disques.
Voilà, je ne me sers pas du tout de Dell Open Manage en fait

Hors ligne

#20 Le 26/10/2010, à 17:18

janolap1

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Merci patfrat,

Mais est-ce que centreon est aussi précis et "parlant" que Dell Openmanage Serveur Administrator ; par exemple lorsqu'une panne est détectée, celui-ci permet de voir en français quel composant précis est en cause.

Jean

Hors ligne

#21 Le 26/10/2010, à 17:36

patfrat

Re : Centreon, Nagios et monitoring du RAID sur un serveur DELL

Ha, centreon, faut se configurer les services à la main ... mais si on le fait bien, sur les bons OIDs en snmp, oui, c'est causant.
je fais du monitoring par exemple sur mon RAID, mes disques, le Spare, mais aussi sur des services comme Mysql, Apache, Ruby, Rsync, samba .. et également sur la taille occupée des disques, de la Ram, sur les flux de mes cartes réseaux ... c'est un travail de longue haleine mais ça marche.
Y'a une distribution qui m'a l'air pas mal et qui intègre centreon qui s'appelle FAN Full Automated Nagios, à tester...

http://fannagioscd.sourceforge.net/drupal/

Je ne suis pas toujours Full Ubuntu ... à l'époque, j'avais installé la surcouche centreon pour tester sur Ubuntu et j'aime bien le look ...
Mais la distribution FAN m'a l'air plus simple car contenant déjà des services pré-configurés.

Hors ligne