Problématique client
La demande initiale porte sur une panne d’une baie Netapp FAS2020 qui comporte 8 disques Western Digital Enterprise 1To SATA. Ce serveur héberge plusieurs centaines de milliers de documents stockés dans de multiples dossiers partagés, ainsi que des fichiers de sauvegarde Windows Backup .bkf.
Le Spare était en erreur depuis plusieurs mois, et un autre disque de la grappe a également lâché récemment.
Nous recevons ainsi 10 disques : les 8 du serveurs, ainsi que deux autres qui auraient été changés avant.
A priori, un cas classique pour lequel nous avons l’habitude d’excellents résultats. Cependant, tout ne va pas être aussi simple que prévu.
La surprise et les Moyens déployés
Le process habituel de réception des supports est mis en oeuvre. Le diagnostic approfondi révèle bien des erreurs sur 3 disques de la grappe. Un qui n’est plus fonctionnel, et deux qui sont très lents. Nous arrivons finalement à cloner l’intégralité des éléments (sauf celui HS) du serveur grâce à nos outils spécialisés, avec gestion précise des erreurs.
La première difficulté est de retrouver le paramétrage du serveur car il faut comprendre comment les données du client sont entrelacées entre plusieurs disques (travail habituel RAID).
Nos experts utilisent notre outil développé sur mesure RAIDtool pour comprendre de quelle manière les données sont organisées et ensuite réassembler les différentes composantes du RAID 4 (ordre, parité, taille de stripes…)
La seconde difficulté imprévue, c’est le file system. Sur ce Netapp FAS2020, le système de fichiers propriétaire est déployé et il s’agit du WAFL. (Write Anywhere File Layout) Ce type de structure est peu développé sur le marché, et très mal documenté du point de vue de la récupération de données. Basé sur un coeur UNIX, il est principalement utilisé par Ontap et Netapp. Nous avons consulté nos sources mondiales pour essayer de trouver des solutions, et malheureusement… Il en ressort que la récupération de données sur WAFL est très compliquée, voir impossible. Même les partenaires Netapp que nous avons consulté n’ont eu de retour positif pour cette problématique. Il n’existe également pas de logiciel à jour pour traiter ce type de système.
Quelques sources :
http://netapp-notes.blogspot.com/2008/03/wafl-check.html
https://www.usenix.org/system/files/conference/fast18/fast18-kesavan.pdf
https://www.recoveryrus.com/recoveryrus-is-releasing-netapp-data-recovery-software
Nous avons toutefois tenté diverses méthodes, telles que l’attaque de la baie en direct en ssh ou d’autres outils issus de notre expérience sur des file systems rares ou exotiques.
Après plusieurs tentatives, nous sommes parvenus à rétablir les accès au WAFL. Nous avons ensuite effectué une vérification et des corrections sur le système de fichiers afin de retouver les différents volumes et l’arborescence.
Enfin nous avons lancé une copie du contenu total sur un NAS équipé de disques neufs. Cette dernière a duré pas moins de 8 jours pour environ 860 000 fichiers et un poids de 650Gb. Nous avons dû procéder à une copie complémentaire en utilisant un charset de type ISO-8859-15 car de nombreux noms de fichiers sortaient du cadre de l’ASCII/UTF8 et ne donnaient pas une arborescence propre. Il restait encore un fichier important de 1,3Tb à récupérer, qui plus est, un des prioritaires pour notre client : un fichier de sauvegarde .bkf. Ce dernier n’aura mis « que » 4h a être copié, car très peu impacté.
Résultat
Il aura fallu moins de dix jours pour que nos experts réussissent ce dossier et mettent en place un listing des fichiers récupérables sur notre outil Diagview pour rassurer le client.
L’extraction de l’ensemble des fichiers est lancée sur un nouveau support.
Résultat : une récupération exceptionnelle, presque complète avec 99,2% de fichiers fonctionnels sur les 860 485 récupérés, alors que tous nos confrères internationaux nous annoncaient l’impossibilité de le faire !