<div dir="ltr">Bonjour,<div><br></div><div>Il y a déjà du monitoring temps réel dans le RAID Linux, ne serait-ce que pour détecter si on supprime un disque, si on active les SPARE etc. Tu peux paramétrer ce mécanisme pour qu'il t'envoie un email dès lors qu'il enlève un disque de la grappe (il le considère en panne). C'est très efficace, et tu as même un moyen de le tester par simulation de perte de disque (pas la peine de l'arracher pour voir si ça marche bien :) ).</div><div><br></div><div>gUI</div></div><div class="gmail_extra"><br><div class="gmail_quote">Le 15 juin 2015 10:59, Jérôme <span dir="ltr"><<a href="mailto:jerome@jolimont.fr" target="_blank">jerome@jolimont.fr</a>></span> a écrit :<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Bonjour.<br>
<br>
Je me pose des questions sur la surveillance de disques durs.<br>
<br>
J'ai deux cas d'utilisation différents.<br>
<br>
1/ Au boulot, j'ai monté un serveur en RAID matériel, et je lis les<br>
données SMART de chaque disque avec Smartmontools. Je ne sais pas<br>
communiquer avec le contrôleur de RAID en logiciel libre (ça doit être<br>
possible avec le logiciel proprio de Dell), mais si j'enlève un disque,<br>
j'ai un message d'erreur, par exemple, parce que smartctl n'arrive pas à<br>
récupérer ses petits.<br>
<br>
2/ A la maison, je crois que j'ai des soucis avec mon disque dur. Mon<br>
ordi a planté deux fois ce WE. Un peu progressivement. Je pouvais<br>
Ctrl+F1, mais une fois tapé le login, je n'ai pas eu la ligne de demande<br>
de mot de passe. Et plus d'invite de session sur les autres Ctrl+Fn. Je<br>
pouvais pinger le PC mais ssh ne répondait pas.<br>
<br>
Sur l'écran noir de Ctrl+F1 (je sais pas si ça s'appelle tty1, peut-être<br>
que je mélange des notions), j'ai fini par avoir plein de lignes qui<br>
alertaient à propose de /dev/sda (mon disque dur) et d'erreur de lecture<br>
(ou écriture, je sais plus) sur un secteur, ce genre de choses. J'ai<br>
redémarré avec les touches magiques (REISUB).<br>
<br>
J'aurais du les prendre en photo, car je les trouve pas dans les logs.<br>
De loin, ça ressemblait à ça, mais c'était pas exactement les mêmes<br>
messages, donc bon, ça veut rien dire...<br>
<a href="http://askubuntu.com/questions/105030/what-is-happening-i-o-error-dev-sda-sector-545868115" rel="noreferrer" target="_blank">http://askubuntu.com/questions/105030/what-is-happening-i-o-error-dev-sda-sector-545868115</a><br>
<br>
Au démarrage suivant, l'ordi est passé en mode de récupération et j'ai<br>
du faire<br>
<br>
umount /dev/sda<br>
fsck /dev/sda<br>
<br>
et accepter des réparations de problèmes, notamment de mémoire une<br>
chaîne d'inodes orphelins (probablement "corrupted orphan linked list",<br>
je retranscris pêle-mêle). Au reboot, tout a fonctionné normalement.<br>
<br>
Désolé pour les approximations dans la description du problème. Mais<br>
l'essentiel de ma question est ailleurs.<br>
<br>
J'ai bien essayé smartmontools, mais il ne détecte rien. J'ai un vieux<br>
test raté et plusieurs tests réussis depuis. Y compris le test que j'ai<br>
fait après l'incident.<br>
<br>
J'envisage donc de changer mon disque, pour ne pas prendre de risque,<br>
mais c'est ballot de jeter si le problème vient d'ailleurs (ou si ça<br>
serait réparable). Si je change, je prends deux ou trois disques en RAID<br>
(logiciel).<br>
<br>
Mes questions, maintenant :<br>
<br>
-> Est-ce possible que le disque soit en train de mourir mais que<br>
smartmontools ne voit rien ?<br>
<br>
-> Comment alors surveiller ses disques ? Notamment, là, sur mon PC<br>
perso, je vois des erreurs qui m'alertent car elles affectent le<br>
système, mais sur un RAID, elles risquent d'être masquées par la<br>
redondance, et donc je ne verrai les problèmes que lorsque la redondance<br>
ne suffira plus. Je n'aurai alors que repoussé le problème.<br>
<br>
-> Est-il possible de dialoguer avec un RAID logiciel pour avoir des<br>
alertes liées à la couche RAID, autres que celles de smartmontools qui<br>
sont au niveau disque ?<br>
<br>
J'ai laissé les vérifs par défaut au démarrage tous les N montages, ou<br>
après indicent. Peut-être que cette vérif est une alternative à<br>
smartmontools, en tout cas pour une machine perso qui redémarre<br>
régulièrement.<br>
<br>
Voilà.<br>
<br>
Merci d'avance pour vos lumières.<br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
Jérôme<br>
<br>
_______________________________________________<br>
Toulouse-ll mailing list<br>
<a href="mailto:Toulouse-ll@toulibre.org">Toulouse-ll@toulibre.org</a><br>
<a href="http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll" rel="noreferrer" target="_blank">http://toulibre.org/cgi-bin/mailman/listinfo/toulouse-ll</a><br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature">Pour la santé de votre ordinateur, préférez les logiciels libres.<br>Lire son mail : <a href="http://www.mozilla-europe.org/fr/products/thunderbird/" target="_blank">http://www.mozilla-europe.org/fr/products/thunderbird/</a><br>Browser le web : <a href="http://www.mozilla-europe.org/fr/products/firefox/" target="_blank">http://www.mozilla-europe.org/fr/products/firefox/</a><br>Suite bureautique : <a href="http://www.libreoffice.org/download/" target="_blank">http://www.libreoffice.org/download/</a></div>
</div>