Problème de raid sur serveur OVH

Rogers · 15 Janvier 2010

Bonjour,

Afin de sécuriser mon serveur qui a un an, j'ai décidé d'utiliser un kernel à jour via le netboot. Malheureusement, ça n'a pas fonctionné (je n'en connais pas les raisons). Après 30 minutes d'attente (oui je suis patient), je décide de rebouter sur le hd. Malheureusement ça n'a pas rebouté, le support m'a fait rebooter sur le mode rescue pour les raisons suivantes :

"The superblock could nnot be read or does not describe a
correct ext2 Filesystem, If the device is valid and it

really contains an ext2 filesystem ( and not swap or ufs or

something else), then the superblock is corrupt, nand you

might try running e2fsck with an alternat superblock :

e2fsck b 8199 <device>

give root password for maintenance

(or type control-d to continue)"

Après avoir fait plusieurs tests avec e2fsck, voici le résultat de ma dernière commande :

root_AT_rescue:~# e2fsck -fvc /dev/md1
e2fsck: /lib/libblkid.so.1: no version information available (required by e2fsck)
e2fsck: /lib/libuuid.so.1: no version information available (required by e2fsck)
e2fsck 1.41.9 (22-Aug-2009)
Checking for bad blocks (read-only test): done
/: Updating bad block inode.
Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information

/: ***** FILE SYSTEM WAS MODIFIED *****

  357685 inodes used (27.91%)
    9578 non-contiguous files (2.7%)
     260 non-contiguous directories (0.1%)
         # of inodes with ind/dind/tind blocks: 6037/105/0
 1315440 blocks used (51.38%)
       0 bad blocks
       0 large files

  312955 regular files
   30933 directories
    1050 character device files
    4110 block device files
       2 fifos
    3157 links
    8589 symbolic links (8509 fast symbolic links)
      37 sockets
--------
  360833 files
root_AT_rescue:~# /sbin/reboot

The system is going down for reboot NOW!et (pts/2) (Thu Jan 14 20:36:56 2010)

Entre temps j'ai fait toutes les manips possibles avec e2fsck et ça ne marche toujours pas. Toujours pas de réponse sur le ticket incident de la part d'OVH.

Bon depuis, autre problème : le raid est degraded. Génial !!!

rescue / # mdadm --misc --detail /dev/md1
/dev/md1:
        Version : 0.90
  Creation Time : Tue Feb  3 11:57:08 2009
     Raid Level : raid1
     Array Size : 10241280 (9.77 GiB 10.49 GB)
  Used Dev Size : 10241280 (9.77 GiB 10.49 GB)
   Raid Devices : 2
  Total Devices : 1
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Fri Jan 15 10:25:08 2010
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           UUID : 7f8cf100:c6a9c268:dffd7b32:01270bfb
         Events : 0.556

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync
       1       0        0        1      removed

Donc là je sature, je n'y connais strictement rien en raid, en théorie je pense que si on récupère les fichiers du disque slave, ça devrait fonctionner mais avant il faut rétablir le raid. Je ne sais pas comment faire. Avez-vous une idée ? Au besoin, je suis prêt à payer s'il le faut.

Merci d'avance.

**Dan** · 15 Janvier 2010

Manifestement la ligne suivante :

Total Devices : 1

signifie que l'un de tes disques est hors-service.

Es-tu certain d'avoir créé correctement le raid ?

Cette ligne me semble suspecte à cause du major et minor number du device ???

1       0        0        1      removed

Elle devrait correspondre à /dev/sdb1.

Le cas échéant, c'est au support de changer le disque défectueux !

Mais assure-toi d'abord que ce device est bien accessible

**Dan** · 15 Janvier 2010

Que te donne un

ls -l /dev/sd*

???

Rogers · 15 Janvier 2010

Merci pour ta réponse Dan.

Toutefois, j'ai un peu avancé et peut être que tout n'est pas perdu. Mais encore une fois, je ne comprends pas trop le fonctionnement de raid, donc peut être ai-je tort.

Lorsque j'ai fourni la commande mdadm il me semble que je n'avais pas fait encore :

mdadm /dev/md1 --manage --add /dev/sdb1

J'ai fais pareil il y a quelques minutes avec le md2

Là si je lance un : cat /proc/mdstat

Voici ce que j'obtiens :

root_AT_rescue:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sdb1[1] sda1[0]
      10241280 blocks [2/2] [UU]

md2 : active raid1 sdb2[2] sda2[0]
      721808384 blocks [2/1] [U_]
      [===========>.........]  recovery = 58.6% (423152512/721808384) finish=60.5min speed=82144K/sec

unused devices: <none>

Je pense donc que je suis sur la bonne voie pour remettre en place mon raid.

Concernant ta commande, je viens de la lancer, voici son résultat :

root_AT_rescue:~# ls -l /dev/sd*
brw-rw---- 1 root disk 8,  0 Jan 15 10:00 /dev/sda
brw-rw---- 1 root disk 8,  1 Jan 15 10:00 /dev/sda1
brw-rw---- 1 root disk 8,  2 Jan 15 10:00 /dev/sda2
brw-rw---- 1 root disk 8,  3 Jan 15 10:00 /dev/sda3
brw-rw---- 1 root disk 8, 16 Jan 15 10:00 /dev/sdb
brw-rw---- 1 root disk 8, 17 Jan 15 10:00 /dev/sdb1
brw-rw---- 1 root disk 8, 18 Jan 15 10:00 /dev/sdb2
brw-rw---- 1 root disk 8, 19 Jan 15 10:00 /dev/sdb3

Sinon une fois mon recovery fini, dois-je faire encore quelque chose ou puis-je redemarrer ?

**Dan** · 15 Janvier 2010

C'est ton device qui n'était pas le bon... mais tu peux rebooter si

mdadm --detail /dev/md1

te montre bien les deux disques !

Relance tout de même un "fsck" avant !

Fais de même pour tes autres partitions (sauf le swap) en remplaçant /dev/md1 par /dev/mdX

Dan

Rogers · 15 Janvier 2010

Donc si j'ai total device : 2 alors je suis bon c'est ça ?

Je relancerai fsck au cas où mais hier lors de ma première tentative, j'avais déjà commencé par utilisé le mode "interface web" du rescue mode, le 2 DD n'étaient pas en degraded. En faisant des e2fsk, il me trouvait le disque clean. Penses tu que je doive vérifier qqch avant ?

Le recovery de md2 n'est pas fini mais :

root_AT_rescue:~# fsck /dev/md1
fsck 1.41.3 (12-Oct-2008)
fsck.ext3: /lib/libblkid.so.1: no version information available (required by fsck.ext3)
fsck.ext3: /lib/libuuid.so.1: no version information available (required by fsck.ext3)
e2fsck 1.41.9 (22-Aug-2009)
/: clean, 357806/1281696 files, 1340101/2560320 blocks

Je pense toutefois que je devrai redemarrer en mode vkvm afin de voir si l'erreur est toujours là.

**Dan** · 15 Janvier 2010

Non, à mon avis c'est tout bon.

Sauf si tu as une erreur de config qui n'a rien à voir avec ton RAID !

Pour rebooter, lance plutôt un

shutdown -r now

C'est plus propre.

Assure-toi avant d'avoir changé le netboot pour qu'il ne soit plus en "rescue"

Rogers · 15 Janvier 2010

Merci pour tous ces précieux conseils et de ton aide. Reboot dans un peu plus de 30 minutes maintenant, il reste 20% de recovery. Je te retiens au courant.

Rogers · 15 Janvier 2010

Serveur en défaut, je l'ai pourtant mis en mode vkvm au cas où

Je vais attendre voir pourquoi ça ne redemarre pas.

**Dan** · 15 Janvier 2010

Tu dois avoir un autre problème que le RAID !

Tu as quelle erreur qui s'affiche ?

Rogers · 15 Janvier 2010

Aucune, il n'a pas redemarré en mode vkvm. Tout de suite après le shutdown, il s'est mis en défaut.

Je rajoute que jusque maintenant il redemarrait bien avec ce mode.

**Dan** · 15 Janvier 2010

Et là il est en rescue ?

Rogers · 15 Janvier 2010

Non, je n'ai rien touché, je le laisse en défaut, si il y a un problème sur un des disques, ils devraient m'en dire plus.

Toutefois, c'est long :

Rack: 04B08

* 1 server down, 1hour 14min 51sec ago

J'espère qu'ils vont bientôt le regarder. Le mettre en rescue ne me permettrait pas de faire grand chose.

Rogers · 15 Janvier 2010

Des news.

Après 1h30 d'attente, voici ce qu'ovh a détecté :

Voici les détails de cette opération :

Reboot HARD

Date 2010-01-15 17:46:00, karl B a fait Reboot HARD:

Serveur retrouvé sur ecran noir

Reboot hard effectué

Serveur ping ok et SSH ouvert

Donc ça a redemarré sous vkvm mais impossible de me connecter, l'applet java me dit :

Network Error: Software caused connection abort: recv failed

Bon du coup je redemarre sur le hd, on verra bien.

Rogers · 15 Janvier 2010

De nouveau en défaut sur le hd. C'est désespérant.

J'envisage de tout reformater parce que là c'est gonflant. J'ai eut le tps de sauvegarder mon ftp et le répertoire home/mysql (je n'avais pas de sauvegarde récente de mes BD). Toutefois, je n'aime pas cette solution, je trouve dommage de tout réinstaller au moindre problème. Mais plus de 24h sans serveur, c'est limite. Ce serait quand même l'occasion de prendre un autre os que la release 2. Debian est-elle la mieux ?

Modifié 15 Janvier 2010 par Rogers

**Dan** · 15 Janvier 2010

Pour moi c'est Debian, et comme on dit outre-atlantique : "hands up !" :handshake:

J'en gère près de 140, sans problème aucun (si ce n'est les bourdes faites par les utilisateurs)

Si tu as sauvé le répertoire /home/mysql sans arrêter mysqld, tu risques d'avoir des bases dans un état "indéterminé"

Si mysqld était arrêté, c'est OK !

Rogers · 15 Janvier 2010

Le temps d'aller manger un petit bout, ils m'ont repassé en mode rescue. Voici ce qu'ils me donnent comme élément :

Serveur retrouvé sur le message suivant :
Filesystem could not be fixed

Give password for maintenance or controlD

Reboot par controlD pour maintenance

Même message

Passage en bzimage 2.6

Même message

Passage en rescue pro

Ping ok et ssh ouvert

Ils sont gentils, mais je ne vois pas ce que je peux faire de plus. Le formatage est-elle la bonne soluce ?

**Dan** · 15 Janvier 2010

Non, un fsck sur toutes tes partitions /dev/md* (non montées!) en mode rescue.

Cela devrait régler ton problème.

Dan

Rogers · 15 Janvier 2010

Merci dan pour toute ton aide et du temps que tu m'as consacré. Toutefois, étant donné que le problème commençait à durer (plus de 24 heures sans serveur), j'ai décidé il y a deux heures de reformater et de mettre une debian. J'ai déjà installé PHP, Mysql, Apache, ftp. Les fichiers de sauvegarde sont déjà en train d'être transférés et la procédure sera fini dans 5 heures. Entre temps j'aurai tout reconfiguré sur le serveur.

Au passage, je suis content de la debian (j'ai pris une 5.0 lenny), pas de problèmes de dépendance, c'est du bonheur. Je verrai une fois que tout sera installé mais je suis content de m'être débarrassé de la release 2, sachant que je ne me servait pas de ovhm pour créer mes domaines, je n'en avais aucune utilité.

**Dan** · 15 Janvier 2010

Tu as bien fait, surtout si ton serveur n'avait pas beaucoup de fichiers dont tu n'avais pas de sauvegarde.

Il est clair que la Debian Lenny, à côté d'une release 2, ce n'est que du bonheur.

Dan

Rogers · 18 Janvier 2010

Malheureusement la saga est de retour. Encore des soucis.

Après avoir quasi tout installé, alors que je faisais une dernière install hier, j'ai dû refaire un reboot soft. Rien de grave, j'en avais déjà fait quelques un dans la journée. Malheureusement, serveur ne redemarre pas, plus de ping.

Je reboot hard cette fois-ci et là rien non plus. Raison donné par le monitoring : problème de filesystems. Mais bien sûr, je les bouffe les filesystems ???? Le même problème à 4 jours d'intervalle alors que j'ai tout réinstallé. M'enfin pas grave, je décide de regarder en mode vkvm pour en savoir plus. J'arrive à me connecter, et une fois loggué, je reçois toutes les 30 sec à 6à sec un message détectant un problème de HD. Voyez par vous même :

/>http://img13.imageshack.us/img13/8782/screenlr.jpg

Ovh ne fait rien. Et moi je ne sais plus quoi faire.

**Dan** · 18 Janvier 2010

Ouvre un ticket support "critique", non ?

Tu ne peux rien faire d'autre !

Rogers · 18 Janvier 2010

Arf, j'écrivais toujours sur le même ticket qui n'avais aucune priorité ce qui explique qu'on ne me lisait pas. Je l'ai donc fermé, et comme tu me l'as conseillé, j'ai ouvert un ticket critique. Je ne savais pas que l'on pouvais faire ça. Merci à toi.

Entre temps, j'ai essayé de redemarré tout à l'heure, défaut encore et le support a contrôlé ceci :

Voici les détails de cette opération :

Diagnostic software

Date 2010-01-18 09:13:21, damien F a fait Diagnostic

software:

Le serveur était en echec de vérification des fichiers

systemes

CTRL - D effectue pour continuer le boot mais le serveur

bloque sur le message d'erreur suivant :

* SSLrandomSeed: souce path 'dev/urandom' does not exist

Idem aprés reboot et boot sur bzimage

Serveur sous rescue pro pour reconfiguration du client

Ping ok, service open

Moi je trouve que ça fait beaucoup de problèmes qui apparaissent rapidement.

Il n'y a plus qu'à attendre.

**Dan** · 18 Janvier 2010

S'il est en rescue pro, c'est à toi d'intervenir.

Donc n'attends pas qu'OVH intervienne ou tu risques d'attendre longtemps.

Il semble que ton installation ne sois pas complète...

Rogers · 18 Janvier 2010

L'install était complète, il a marché 2 deux jours avec. Il n'y a pas de raisons.

Quoiqu'il en soit, le message que j'ai en mode vkvm indique clairement un soucis. Si un des disque est endommagé, il n'est pas impossible que certains fichiers ne fonctionnent plus donc plus possible d'avoir le SSL. Je ne m'y connais pas assez.

Sinon, mis à part OVH, il y a quoi de sérieux pour du dédié ? Je ne demande pas 750 Go de DD comme j'ai actuellement ni 4Go de RAM, maais quelque chose de potable. J'ai regardé chez SIVIT connu pour leur sérieux, mais je dois avouer que les prix sont hallucinants. Pas de RAM (10 euros HT/mois en plus par tranche de 256 Mo de Ram supplémentaire), ils sont un peu à côté de la plaque. A ce tarif, une barette de 1Go est payée dès le premier mois. J'envisage de changer car je suis déçu de OVH, les techniciens répondent plusieurs jours après et ne tiennent pas compte de nos indications. C'est frustrant quant on a pas accès à la machine.

Connexion

Problème de raid sur serveur OVH

Sujets conseillés

Rogers

Dan

Dan

Rogers

Dan

Rogers

Dan

Rogers

Rogers

Dan

Rogers

Dan

Rogers

Rogers

Rogers

Dan

Rogers

Dan

Rogers

Dan

Rogers

Dan

Rogers

Dan

Rogers

Veuillez vous connecter pour commenter

Parcourir

Activité