[Toulibre] Surveiller l'état des disques durs

Jérôme jerome at jolimont.fr
Lun 15 Juin 10:59:52 CEST 2015


Bonjour.

Je me pose des questions sur la surveillance de disques durs.

J'ai deux cas d'utilisation différents.

1/ Au boulot, j'ai monté un serveur en RAID matériel, et je lis les
données SMART de chaque disque avec Smartmontools. Je ne sais pas
communiquer avec le contrôleur de RAID en logiciel libre (ça doit être
possible avec le logiciel proprio de Dell), mais si j'enlève un disque,
j'ai un message d'erreur, par exemple, parce que smartctl n'arrive pas à
récupérer ses petits.

2/ A la maison, je crois que j'ai des soucis avec mon disque dur. Mon
ordi a planté deux fois ce WE. Un peu progressivement. Je pouvais
Ctrl+F1, mais une fois tapé le login, je n'ai pas eu la ligne de demande
de mot de passe. Et plus d'invite de session sur les autres Ctrl+Fn. Je
pouvais pinger le PC mais ssh ne répondait pas. 

Sur l'écran noir de Ctrl+F1 (je sais pas si ça s'appelle tty1, peut-être
que je mélange des notions), j'ai fini par avoir plein de lignes qui
alertaient à propose de /dev/sda (mon disque dur) et d'erreur de lecture
(ou écriture, je sais plus) sur un secteur, ce genre de choses. J'ai
redémarré avec les touches magiques (REISUB).

J'aurais du les prendre en photo, car je les trouve pas dans les logs.
De loin, ça ressemblait à ça, mais c'était pas exactement les mêmes
messages, donc bon, ça veut rien dire...
http://askubuntu.com/questions/105030/what-is-happening-i-o-error-dev-sda-sector-545868115

Au démarrage suivant, l'ordi est passé en mode de récupération et j'ai
du faire 

umount /dev/sda
fsck /dev/sda

et accepter des réparations de problèmes, notamment de mémoire une
chaîne d'inodes orphelins (probablement "corrupted orphan linked list",
je retranscris pêle-mêle). Au reboot, tout a fonctionné normalement.

Désolé pour les approximations dans la description du problème. Mais
l'essentiel de ma question est ailleurs.

J'ai bien essayé smartmontools, mais il ne détecte rien. J'ai un vieux
test raté et plusieurs tests réussis depuis. Y compris le test que j'ai
fait après l'incident.

J'envisage donc de changer mon disque, pour ne pas prendre de risque,
mais c'est ballot de jeter si le problème vient d'ailleurs (ou si ça
serait réparable). Si je change, je prends deux ou trois disques en RAID
(logiciel).

Mes questions, maintenant :

-> Est-ce possible que le disque soit en train de mourir mais que
smartmontools ne voit rien ?

-> Comment alors surveiller ses disques ? Notamment, là, sur mon PC
perso, je vois des erreurs qui m'alertent car elles affectent le
système, mais sur un RAID, elles risquent d'être masquées par la
redondance, et donc je ne verrai les problèmes que lorsque la redondance
ne suffira plus. Je n'aurai alors que repoussé le problème.

-> Est-il possible de dialoguer avec un RAID logiciel pour avoir des
alertes liées à la couche RAID, autres que celles de smartmontools qui
sont au niveau disque ?

J'ai laissé les vérifs par défaut au démarrage tous les N montages, ou
après indicent. Peut-être que cette vérif est une alternative à
smartmontools, en tout cas pour une machine perso qui redémarre
régulièrement.

Voilà.

Merci d'avance pour vos lumières.

-- 
Jérôme




Plus d'informations sur la liste de diffusion Toulouse-ll