[Toulibre] Surveiller l'état des disques durs

Mer 17 Juin 13:10:49 CEST 2015

Merci Aymeric pour cette réponse très détaillée !

Et merci aussi à ceux qui insistent (même si c'est juste un message
d'une ligne ou un "+1") sur l'utilité de faire des sauvegardes en
priorité. On a beau le savoir, on a toujours la flemme, mais quand tout
le monde rappelle l'évidence, on se dit qu'on aurait vraiment l'air con
à tout perdre faute de sauvegarde, donc on s'y met. Et en plus, c'est
pas si compliqué...

J'ai donc sauvegardé l'essentiel (sur un disque externe en FAT32, mais
c'est déjà ça).

Par ailleurs, j'ai commandé deux disques durs d'1 To que je vais monter
en RAID. J'y pensais déjà avant, c'est l'occasion.

Le message d'Aymeric est très rassurant donc je vais pouvoir réutiliser
mon disque de 500 Go en supplément pour des sauvegardes.

Mais alors je ne m'explique pas les plantages systèmes et les messages
d'erreur que j'aurais du photographier avant d'éteindre l'ordi.

Le 2015-06-17 01:36, Aymeric a écrit :

> Quelques détail avec les valeurs « raw » :
> 
> 12) Nombre de « Load cycle Count » tu es à 2323 sur 300000
> constructeurs, valeur très faible donc aucun risque à ce niveau là. Ça
> correspond d'ailleurs au nombre d’allumage, j'en conclu donc que soit tu
> fais des accès disques en permanence lorsque le disque est allumé, soit
> Linux n'effectue jamais de « park head » (c'est souvent le cas sur les
> PC fixe, sur les PC portable en général il y a un paquet pour reposer
> les têtes).

C'est un PC fixe, donc ça se tient. Sur les portables, je suppose que
c'est pour empêcher que ça casse en cas de chute. En contrepartie, ça
doit occasionner une usure plus avancée. Y a-t-il un intérêt en économie
d'énergie (y compris sur PC fixe) ?

> -> Ce n'est pas spécifié dans la doc mais tu dois avoir environ
> 2000/3000 secteurs de réserve. Ce que tu peux faire c'est faire une
> réecriture complète sur le disque et vérifier que cette valeur n'a pas
> changé.
>     Si cette valeur ou la valeur de 197 augmente ça signifie que :
>          1) Le test extented est foireux ... (bug du firmware?)
>          2) La surface est défectueuse  ou qu'il n'y a jamais eu d'init
> de la smart

Une fois remplacé mon disque, je pourrai faire une réécriture complète.

Je fais quoi ? Un truc à base de dd et de /dev/null ou tu penses à autre
chose ?

> En résumé :
> => Surveiller l'évolution de 5, 196 et 197. si c'est valeurs augmentent
> il faut changer le disque, ce n'est pas la peine d'attendre, si ça reste
> stable sur plusieurs semaines/mois pas d'inquiétude.

Bon, j'ai déjà acheté d'autres disques pour RAID, mais par principe, je
voudrais faire vivre celui-ci plutôt que le balancer "par précaution"
s'il n'y a pas de raison de s'alarmer. Donc merci pour les
éclaircissements.

> Selon les cartes, tu as un truc via smart, sinon c'est outil constructeur...

Dans le cas du serveur au boulot, c'est outil constructeur DELL. J'ai
pas trop envie d'utiliser ça. Et peut-être une alternative, j'ai pas
creusé, avec le BIOS balèze de la machine, qui est capable d'envoyer
certaines alertes par ethernet.

> Ne pas oublier lorsqu'on fait du RAID, deux disques du mêmes fabriquant,
> même modèle, même série ont une forte probabilité de tomber en panne en
> même temps... (ou suffisamment proche pour ne pas laisser le temps à
> raid de se réparer...)

Oui, et on a bien sûr mis les 4 disques neufs identiques achetés avec la
machine... Dans la pratique, le serveur héberge un hôte minimaliste qui
contient des VMs dont on fera des sauvegardes, donc si on perd le
serveur, on en remonte un vite fait et on relance les VM. C'est pas
ultra-critique.

Et bien sûr, chez moi, j'ai commandé deux disques identiques. J'ai pris
deux Western Digital Red. J'ai hésité à prendre un Red et un Blue pour
éviter que tout casse en même temps mais je l'ai pas fait...

> Enfin.. si une météorite explose tout le sud-ouest, je ne suis pas sûr
> que tes backups soit le premier de tes soucis. ^^

Ben j'aurai peut-être perdu toute ma famille et mes guitares, mais
j'aurai encore les photos...

> Le RAID HW c'est bien.. quand c'est une vrai carte pro (avec batterie de
> backup intégré.. etc), pas les fake-hw-raid des cartes mères de pc
> standard qui monopolise le southbridge pour faire le raid ce qui fait
> qu'on n'a pas de meilleure perf qu'avec du soft raid...

Le contrôleur RAID de la machine du boulot est un truc pro, avec
batterie notamment. C'est pour ça que mon collègue aurait trouvé dommage
de pas l'utiliser.

Sur mon PC perso, c'est sans doute bas de gamme, et si ça casse, je veux
pas remplacer à grands frais, je cherche une nouvelle tour d'occasion.
Donc RAID logiciel.

> 2 disques en RAID1 tu auras de meilleures perf (max = vitesse max en
> parallèle du south-bridge), le RAID5 est consommateur de CPU et d'I/O...

Je pars là-dessus. L'espace disque n'est pas un gros problème. Encore
moins si j'utilise le 500 Go en plus pour stocker certains trucs.

>> C'est une question annexe, mais tant que j'y suis, je veux bien
>> confirmation qu'en RAID 1, je peux démonter un disque et le lire
>> ailleurs et je peux utiliser un live-cd pour lire son contenu, alors
>> qu'en RAID 5, j'ai besoin d'avoir le système lancé avec mdadm et le
>> RAID complet (en tout cas deux disques) pour que ça marche. Et si je
>> démonte deux disques, j'ai pas un accès trivial à la donnée. Si j'ai
>> bien compris, alors autant partir sur du RAID 1. Le mieux est l'ennemi
>> du bien.
> 
> Soft raid linux :
> -> metadata 0.9 ou 1.0 tu peux relire sans mdadm
> -> metadata 1.1 ou 1.2 il faut mdadm pour relire le raid.
> Après si c'est raid1 tu peux toujours activer l'array en degraded avec
> un seul disque sur les deux..

Ah.

Sur Jessie, c'est mdadm 3.3.2 donc le format 1.2
https://raid.wiki.kernel.org/index.php/RAID_superblock_formats

Je suis pas sûr d'avoir le choix à l'installation. Et il doit y avoir de
bonnes raisons d'utiliser une version récente de metadata. Donc ça sera
1.2.

Ma problématique, c'est juste que si je casse la carte-mère ou si mon
système déconne complètement, j'aime l'idée de pouvoir récupérer
facilement mes données en branchant mon disque sur n'importe quelle
machine.

Si je comprends bien, il me faudra un machine avec mdadm. Il faudrait de
toute façon une machine linux ou un live-CD pour lire la partition ext4,
donc ça ne rajoute pas vraiment une limitation. Et on a un deuxième
poste en Debian à la maison.

Quelques pistes en cas de pépin :
http://unix.stackexchange.com/questions/64889/
http://unix.stackexchange.com/questions/72279/

Peut-être que je me pose la mauvaise question.

Si la CM est cuite, je peux mettre les deux disques dans une autre
machine et ça va marcher, non ?

Et si le système est cassé, en mettant les deux disques dans une autre
machine (avec deux ports SATA) ou bien en bootant sur un live-CD, puis
en utilisant mdadm, je devrais retrouver mes petits.

Ce que je souhaite, c'est mettre tout mon système sur le RAID 1
(éventuellement en plusieurs partitions avec LVM), pas juste une
partition de données.

Ce que j'ai du mal à comprendre, c'est comment mdadm peut être
responsable du RAID tout en étant lancé par le système qui se trouve sur
le RAID.

Au démarrage, il faut bien assembler le RAID pour pouvoir lancer le
système qui va exécuter mdadm ? Ou bien l'installer met en place une
instance de mdadm indépendante du système, mais alors il doit bien y
avoir une partie du disque qui n'est pas gérée par mdadm, par exemple le
secteur de boot. Ça m'échappe.

L'aide de Debian apporte des éléments de réponse
(https://www.debian.org/releases/stable/amd64/ch06s03#mdcfg) en disant
que la partition /boot doit être séparée... mais qu'elle peut être en
RAID 1 aussi...

-- 
Jérôme