Monitoring du RAID

18 réponses
AuteurMessage

Bool |
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 20/05/2009 à 20:07

Hello,

m'étant malheureusement rendu compte un peu tardivement que le monitoring via smartmontools n'est pas suffisant pour surveiller les disques, j'ai tenté de me faire un petit script pour surveiller cela sur toutes mes machines (pas de raid, raid soft, raid 3ware et raid LSI Logic).

Ca peut peut-être vous servir, donc voici une version relativement portable :

#!/bin/sh
STATUS=OK
if [ -f /proc/mdstat ] ; then
NBSOFTRAID=`cat /proc/mdstat | grep blocks | wc -l`
if [ $NBSOFTRAID -gt 0 ] ; then
STATUS=DEGRADED
NBOK=`cat /proc/mdstat | grep blocks | egrep '\[U+\]' | wc -l`
if [ $NBSOFTRAID -eq $NBOK ] ; then
STATUS=OK
fi
fi
fi
if [ "$STATUS" == "OK" ] ; then
if [ -c /dev/twe0 ] ; then
STATUS=`/usr/local/sbin/tw_cli info c0 unitstatus|grep -E '^u'|awk '{print $3}'`
fi
if [ -s /proc/mpt/summary ] ; then
STATUS=`/usr/sbin/mpt-status --newstyle -s | grep vol | awk '{print $2}'`
if [ "$STATUS" == "OPTIMAL" ] ; then
STATUS=OK
fi
fi
fi
echo $STATUS


Si le résultat est différent de "OK", c'est qu'il y a un soucis quelque part.
Pour les cartes 3ware il faut que le binaire tw_cli soit présent (il est généralement fourni par l'hébergeur), et pour les cartes LSI Logic sous Debian faut installer le paquet "mpt-status".

Évidement le script ne prend pas tous les cas en compte, comme par exemple la présence de plusieurs technologies dans la machine, ou plusieurs grappes RAID physiques... mais bon, ça doit pas être très courant chez les hébergeurs classiques.

(Message édité le 21-05-2009 à 03h05 par Bool)

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

flush | Jean-Philippe
Modérateur

Photo de flush

Inscrit le : 09/05/2005

# Le 20/05/2009 à 20:24

Pas très courant ... 3 serveurs avec le raid HS quand même !!!

@+ Jean-Philippe

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 20/05/2009 à 21:50

Ouep donc pour info d'après le technicien Sivit les cartes 3Ware ont tendance à facilement faire sauter le RAID en cas de reboot électrique. Et il s'agit justement des cartes les plus répandues chez les hébergeurs (Sivit, OVH, et MailClub par exemple).
Et ça fait tout drôle de se rendre compte qu'on a plusieurs machines avec le RAID en vrac, alors que smartmontools continue à dire que "jusque là, tout va bien" ;)

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 20/05/2009 à 23:20

Clairement... c'est de loin avec le RAID soft que j'ai le moins de soucis et les meilleures perfs... c'est fou quand même :S

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 21/05/2009 à 02:18

May 21 02:07:56 ***** kernel: 3w-xxxx: scsi0: AEN: WARNING: ATA port timeout: Port #0.
May 21 02:07:56 ***** kernel: 3w-xxxx: scsi0: AEN: ERROR: Unit degraded: Unit #0.


hein hein hein, c'est ma journée...

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 21/05/2009 à 13:42

IG ?

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Zalex14 | Alexandre
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 21/05/2009 à 14:11

Bool a dit :
IG ?

Si IG c'est Info Gérant, je crois qu'il se fout de ta gueule

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 21/05/2009 à 14:16

rofl, c'est malin

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 22/05/2009 à 19:37

root! stryge:/home/daevel# smartctl /dev/twe0 -d 3ware,1 -a
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/Ouvrir dans une nouvelle fenetre

WARNING - NO DEVICE FOUND ON 3WARE CONTROLLER (disk 1)


Je la sens mal cette histoire...

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Salemioche | Nicolas
Membre

Photo de Salemioche

Inscrit le : 26/12/2008

# Le 22/05/2009 à 20:49

ma ligne expresse pour le soft, je colle ca dans la crontab


0 * * * * root if (cat /proc/mdstat | grep blocks | grep -v UU) ; then echo "erreur RAID XX_nom_du_serveur_XX" | mail -s "erreur raid" email@maintenance_urgente.net ; fi


ca revient au meme que ton code, mais ca va plus vite a installer :-)

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 22/05/2009 à 21:06

Ouais, ça ne fonctionne qu'en soft et qu'avec deux disques mais ça peut suffire oui. Pour moi le but était d'avoir le même script de contrôle sur l'ensemble du parc.

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Salemioche | Nicolas
Membre

Photo de Salemioche

Inscrit le : 26/12/2008

# Le 22/05/2009 à 21:18

yep, je donnais une alternative simple pour ceux qui font rien chez eux et qui voudrait mettre en place un suivi en une ligne :-)

me reste que 3 serveurs avec carte 3ware et ils dégagent en septembre, cette ligne suffira sur l'ensemble de mon parc désormais :-D

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 22/05/2009 à 21:21

Ouki.

Je crois que je serais prêt à payer une option chez tatave pour qu'il vire ces cartes à la con... en plus d'être lentes elles ne semblent finalement pas fiables...

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Liliandev | Lilian
Membre

Photo de Liliandev

Inscrit le : 06/03/2009

# Le 25/05/2009 à 23:11

Les cartes 3ware sont des bonnes cartes RAID ... par contre elles sont pas du meilleur rapport qualité / prix, ce sont les ARECA qui ont la côte ...

De toute façon se limiter à une marque de carte RAID pour du stockage c'est quand même un peu tiré par les cheveux, les cartes RAID sont la principale source de défaillance et je parle même pas des disques durs, un RAID ne remplacera jamais les sauvegardes

Lilian | High-TechOuvrir dans une nouvelle fenetre - Communauté WebmasterOuvrir dans une nouvelle fenetre - Communauté InformatiqueOuvrir dans une nouvelle fenetre - Comparateur de prixOuvrir dans une nouvelle fenetre

Salemioche | Nicolas
Membre

Photo de Salemioche

Inscrit le : 26/12/2008

# Le 26/05/2009 à 08:45

le RAID n'est pas une sauvegarde !!! en cas d'erreur humaine, zoup, finito...

le RAID c'est juste une assurance de continuité de service en cas de crash disque

Salemioche | Nicolas
Membre

Photo de Salemioche

Inscrit le : 26/12/2008

# Le 26/05/2009 à 08:46

enfin pour le RAID 1 :-) en RAID 0 le crash disque c'est l'assurance de tout perdre d'un coup

Bool | Olivier
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 26/05/2009 à 10:21

le RAID c'est juste une assurance de continuité de service en cas de crash disque


va dire ça à OVH... ils m'ont (encore) bousillé un serveur en changeant un des deux disques. Toujours la faute du contrôleur 3ware d'après eux.

daevel : infogérance et conseilOuvrir dans une nouvelle fenetre || moiOuvrir dans une nouvelle fenetre

Salemioche | Nicolas
Membre

Photo de Salemioche

Inscrit le : 26/12/2008

# Le 26/05/2009 à 10:44

ton serveur fonctionnait encore après le crash du premier disque...
ce n'est pas le hardware qui a été défaillant au départ :-)
pour ce qui est du support ovh, j'ai aussi mon lot d'exploits vécus :-D

Liliandev | Lilian
Membre

Photo de Liliandev

Inscrit le : 06/03/2009

# Le 26/05/2009 à 11:34

@salemioche c'est ce que j'affirme le RAID n'est pas une sauvegarde et il ne fait pas se fier au RAID qui est beau dans la théorie mais qui pose bien souvent des soucis dans la pratique.

Pour ce qui est du RAID 1 Soft il est plus facile de récupérer les données que sur un RAID 1 Hardware toutes cartes confondues (elles rajoutent leurs données nécessaires à leur fonctionnement)

Le controleur 3ware fait son boulot , j'ai que ça actuellement sur des serveurs que je gère directement et je n'ai aucun soucis, par contre l'erreur humaine a tendance à virer facilement sur une faute du matériel ... il a bon dos !

Lilian | High-TechOuvrir dans une nouvelle fenetre - Communauté WebmasterOuvrir dans une nouvelle fenetre - Communauté InformatiqueOuvrir dans une nouvelle fenetre - Comparateur de prixOuvrir dans une nouvelle fenetre

Répondre

Vous ne pouvez pas participer au forum, car votre inscription n'a pas été validée. Pour vous faire valider en tant que Membre, cliquez ici.

© MHN - Tous droits réservés | CNIL N°844440 | 24/11/2024 5:46:00 | Généré en 8.59ms | Contacts | Mentions légales |