Salut,

J'ai un PC d'un peu plus de trois ans dont j'ai fait un serveur (sous Fedora 7).

Depuis quelques temps il se fige violemment : aucune action possible, il ne répond plus à rien.
Après quelques recherches j'arrive à isoler le moment où cela ce produit (je ne suis pas forcément à coté lorsque ça arrive).

Je cherche dans "/var/log/messages" et je tombe sur ça :
Nov  4 02:20:33 localhost kernel: ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Nov  4 02:20:33 localhost kernel: ata2.01: cmd ca/00:48:27:3d:01/00:00:00:00:00/f0 tag 0 cdb 0x0 data 36864 out
Nov  4 02:20:33 localhost kernel:          res 40/00:07:01:30:01/00:10:5f:30:0c/01 Emask 0x4 (timeout)
Nov  4 02:20:38 localhost kernel: ata2: port is slow to respond, please be patient (Status 0xd0)
Nov  4 02:20:43 localhost kernel: ata2: device not ready (errno=-16), forcing hardreset
Nov  4 02:20:43 localhost kernel: ata2: soft resetting port
Nov  4 02:20:44 localhost kernel: ata2.01: revalidation failed (errno=-2)
Nov  4 02:20:44 localhost kernel: ata2: failed to recover some devices, retrying in 5 secs
Nov  4 02:20:49 localhost kernel: ata2: soft resetting port
Nov  4 02:20:49 localhost kernel: ata2.00: configured for UDMA/33
Nov  4 02:20:49 localhost kernel: ata2.01: configured for UDMA/33
Nov  4 02:20:49 localhost kernel: ata2: EH complete
Nov  4 02:20:49 localhost kernel: sd 1:0:0:0: [sdc] 625142448 512-byte hardware sectors (320073 MB)
Nov  4 02:20:49 localhost kernel: sd 1:0:0:0: [sdc] Write Protect is off
Nov  4 02:20:49 localhost kernel: sd 1:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Nov  4 02:20:49 localhost kernel: sd 1:0:1:0: [sdd] 976773168 512-byte hardware sectors (500108 MB)
Nov  4 02:20:49 localhost kernel: sd 1:0:1:0: [sdd] Write Protect is off
Nov  4 02:20:49 localhost kernel: sd 1:0:1:0: [sdd] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Nov  4 02:20:49 localhost kernel: sd 1:0:0:0: [sdc] 625142448 512-byte hardware sectors (320073 MB)
Nov  4 02:20:49 localhost kernel: sd 1:0:0:0: [sdc] Write Protect is off
Nov  4 02:20:49 localhost kernel: sd 1:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Nov  4 02:20:49 localhost kernel: sd 1:0:1:0: [sdd] 976773168 512-byte hardware sectors (500108 MB)
Nov  4 02:20:49 localhost kernel: sd 1:0:1:0: [sdd] Write Protect is off
Nov  4 02:20:49 localhost kernel: sd 1:0:1:0: [sdd] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Avant : d'autres messages sans rapport, après : le freeze.

Pour vous aider à visualiser mes disques voici un fdisk -l :
Disque /dev/sda: 320.0 Go, 320072933376 octets
255 heads, 63 sectors/track, 38913 cylinders
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/sda1               1       36102   289989283+  83  Linux
/dev/sda2   *       36103       38015    15366172+  83  Linux
/dev/sda3           38016       38276     2096482+  82  Linux swap / Solaris
/dev/sda4           38277       38913     5116702+  83  Linux

Disque /dev/sdb: 250.0 Go, 250059350016 octets
255 heads, 63 sectors/track, 30401 cylinders
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/sdb1               1       30401   244196001   83  Linux

Disque /dev/sdc: 320.0 Go, 320072933376 octets
255 heads, 63 sectors/track, 38913 cylinders
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/sdc1   *           1       38913   312568641   83  Linux

Disque /dev/sdd: 500.1 Go, 500107862016 octets
255 heads, 63 sectors/track, 60801 cylinders
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/sdd1               1       60801   488384001   83  Linux

Disque /dev/sde: 163.9 Go, 163928604672 octets
255 heads, 63 sectors/track, 19929 cylinders
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/sde1   *           1        1305    10482381   83  Linux
/dev/sde2            1306       19928   149589247+   f  W95 Etendu (LBA)
/dev/sde5            1306        3916    20972826   83  Linux
/dev/sde6            3917       19928   128616358+  83  Linux

Disque /dev/sdf: 203.9 Go, 203928109056 octets
255 heads, 63 sectors/track, 24792 cylinders
Unités = cylindres de 16065 * 512 = 8225280 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/sdf1   *           1       24792   199141708+  83  Linux
sde et sdf sont en SATA et les autres en IDE.
/ sur sda2
swap sur sda3
/home sur sda4

Autre précision : le plus vieux des deux disques doit avoir trois mois.

Bon j'espère ne rien avoir oublié...

Ma conclusion : le freeze vient du fait que Fedora n'arrive plus à contacter deux disques durs (sdc et sdd).
Origine du problème : peut-être le contrôleur IDE secondaire (ou la nappe) qui merdoie (ou alors c'est les deux disque en même temps) mais aucune certitude.

En attendant d'avoir les finances pour racheter une carte mère (ou CM, RAM et proco) ou la motivation d'aller retripatouiller le bazar dans l'espoir (très faible d'où ma motivation de même niveau) qu'un changement de nappe améliore la situation, j'aimerais savoir comment faire pour que Fedora ne freeze plus ?? Une (plusieurs) commande, un (plusieurs) fichier de configuration à modifier, les deux...

Parce que là c'est assez embêtant.

Merci pour avoir pris la peine (si si) de me lire.
j'aimerais savoir comment faire pour que Fedora ne freeze plus ??
En resolvant le prob. Au lieu de vouloir supprimer les freezes je sortirai les disques,ferai une sauvegarde et eessayerai de trouver le coupable.
Je me demande puisque tu as un port IDE réglé sur udma 100 et celui ci réglé sur udma33, si cela ne crée pas un déséquilibre.

Mais comment le résoudre si c'est le cas ? alors là..
Merci, je vais chercher de ce coté, je vous dirai le résultat...
Tu peut aussi "écouter" fonctionner ton disque, c'est souvent révélateur!

Certaines marques ont des séries qui lache au niveau "mécanique", les IBM à une époque, les Maxtors il n'y a pas si longtemps (enfin j'ai des diamondmax 9 dont la série étaient particulièrement touché alors que les miens fonctionnes presque 24h/24 7j/7 sans problèmes depuis 2003!).

Personnellement j'écoute le fonctionnement du disque et je me trompe rarement car ils tombent presque tous en panne peut de temps après et le restant 6 mois à 1 ans après (pénible les gens qui préfèrent tout perdre que de changer pour 30 à 60 roro que coûte un disque dur! et je ne parle pas de ceux qui sauvegarde jamais car ils se disent que ça ne leur arrivera pas!).
@VINDICATORs : Non je n'ai pas entendu de bruit.

J'avais oublié une petite précision (je ne sais pas si ça peut aider mais bon...) : lors du freeze la diode d'indication d'utilisation des disques durs est allumée en permanence.

Bon sinon des petites nouvelles de smartd dans /var/log/messages :
Au lancement de smartd avec mes paramètres personnel :
Nov  4 16:12:10 localhost smartd[4586]: smartd version 5.37 [i386-redhat-linux-gnu] Copyright (C) 2002-6 Bruce Allen 
Nov  4 16:12:10 localhost smartd[4586]: Home page is http://smartmontools.sourceforge.net/  
Nov  4 16:12:10 localhost smartd[4586]: Opened configuration file /etc/smartd.conf 
Nov  4 16:12:10 localhost smartd[4586]: Configuration file /etc/smartd.conf parsed. 
Nov  4 16:12:10 localhost smartd[4586]: Device: /dev/sda, opened 
Nov  4 16:12:10 localhost smartd[4586]: Device: /dev/sda, not found in smartd database. 
Nov  4 16:12:10 localhost smartd[4586]: Device: /dev/sda, is SMART capable. Adding to "monitor" list. 
Nov  4 16:12:10 localhost smartd[4586]: Device: /dev/sdb, opened 
Nov  4 16:12:10 localhost smartd[4586]: Device: /dev/sdb, found in smartd database. 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdb, is SMART capable. Adding to "monitor" list. 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdc, opened 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdc, not found in smartd database. 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdc, is SMART capable. Adding to "monitor" list. 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdd, opened 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdd, found in smartd database. 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sdd, is SMART capable. Adding to "monitor" list. 
Nov  4 16:12:11 localhost smartd[4586]: Monitoring 4 ATA and 0 SCSI devices 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sda, 4294967295 Currently unreadable (pending) sectors 
Nov  4 16:12:11 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:11 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sda, 4294967295 Offline uncorrectable sectors 
Nov  4 16:12:11 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:12 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:12 localhost smartd[4586]: Device: /dev/sdd, 2 Currently unreadable (pending) sectors 
Nov  4 16:12:12 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:12 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:12 localhost smartd[4586]: Device: /dev/sdd, 2 Offline uncorrectable sectors 
Nov  4 16:12:12 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:13 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:13 localhost smartd[4613]: smartd has fork()ed into background mode. New PID=4613.
Et une demi-heure plus tard :
Nov  4 16:42:13 localhost smartd[4613]: Device: /dev/sda, 4294967295 Currently unreadable (pending) sectors 
Nov  4 16:42:13 localhost smartd[4613]: Device: /dev/sda, 4294967295 Offline uncorrectable sectors 
Nov  4 16:42:13 localhost smartd[4613]: Device: /dev/sdd, 2 Currently unreadable (pending) sectors 
Nov  4 16:42:13 localhost smartd[4613]: Device: /dev/sdd, 2 Offline uncorrectable sectors 
Nov  4 16:42:13 localhost smartd[4613]: Device: /dev/sdd, SMART Usage Attribute: 190 Temperature_Celsius changed from 60 to 59 
Nov  4 16:42:13 localhost smartd[4613]: Device: /dev/sdd, SMART Usage Attribute: 194 Temperature_Celsius changed from 40 to 41
Là j'ai lancé un premier test long avec smartcl :
Please wait 115 minutes for test to complete.
\o/ Bon j'attends...
Bon j'ai cherché, mais en vain, les résultat du test, je ne comprend pas.
Je crois que ce problème est au delà de mes capacités de compréhension.

Alors si vous connaissez une astuce pour que Linux évite de se figer quand il perd un disque ça m'arrangerais, histoire de parer au plus pressé.
Peut-être finirais-je par racheter une carte mère, mais en attendant...

@nouvo09 : je n'ai pas trouvé pour l'histoire de l'UDMA...
daneel wrote:
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sda, 4294967295 Currently unreadable (pending) sectors 
Nov  4 16:12:11 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:11 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:11 localhost smartd[4586]: Device: /dev/sda, 4294967295 Offline uncorrectable sectors 
Nov  4 16:12:11 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:12 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:12 localhost smartd[4586]: Device: /dev/sdd, 2 Currently unreadable (pending) sectors 
Nov  4 16:12:12 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:12 localhost smartd[4586]: Warning via mail to master: successful 
Nov  4 16:12:12 localhost smartd[4586]: Device: /dev/sdd, 2 Offline uncorrectable sectors 
Nov  4 16:12:12 localhost smartd[4586]: Sending warning via mail to master ... 
Nov  4 16:12:13 localhost smartd[4586]: Warning via mail to master: successful
Tu as des secteurs défectueux. As tu essayé un formatage bas niveau des disques en question voir si ça améliore les choses ?
Si tu ne veux pas (encore) faire un formatage bas niveau, tu peux tenter de marquer les secteurs defectueux avec badblocks.
Tiens c'est une bonne idée ça, merci pour la commande, je ne connaissais pas...
Bon je me plonge dans "man badblocks" parce que le formatage bas niveau n'est pas à l'ordre du jour pour l'instant.
enfin si possible je te suggère d'essayer d'installer un disque soi-disant défectueux sur une machine réputée saine pour voir le test.

A ce stade j'y crois pas du tout !
Oui pas mal comme test, j'y penserais si je trouve une machine d'ici là. Ou alors peut-être en externe...
Là j'ai "e2fsck -c" qui tourne plein pot...
Je verrais après...
Merci pour les idées...
Merci, je me penche là-dessus ce soir en rentrant...
N'oublie pas que badblocks te donne l'adresse des secteurs qu'il n'arrive pas à lire. seulement il se base sur les résultats qu'il reçoit et qui transitent par les maillons
- harware-software du disque / nappe IDE / controleur / module de gestion.

C'est pour cette raison que je privilégierais d'abord le test hors de la machine.
VINDICATORs wrote:Certaines marques ont des séries qui lache au niveau "mécanique", les IBM à une époque, les Maxtors il n'y a pas si longtemps (enfin j'ai des diamondmax 9 dont la série étaient particulièrement touché alors que les miens fonctionnes presque 24h/24 7j/7 sans problèmes depuis 2003!).
Au moins t'as de la chance... moi je me suis tapé 6 procédure de RMA en moins de 2 mois... Maxtor c'est fini pour moi, je préfère mes bon vieux WD


Sinon j'ai exactement le même soucis mais j'ai que des disques dur en sata.

edit : moi le problème c'est avec les 2 disques sata de branché que ça déconne :
M$ seulement ça tournais bien, Fedora tout seul ça tournais bien. M$ + Distro linux 32 ou 64 bits (j'en ai testé plusieurs), tjs le même problème ça freeze soit de lui même, soit une application flash sous linux suffit à me planter l'ordi et a me faire clignotter les diodes du clavier. Un reboot et hop le bios ne detecte plus le deuxieme disque dur... celui qui est appellé par GRUB pour le boot.

La seuleme manière que j'ai trouvé pour qu'il soit à nouveau détecté (mais ça marche pas toujours, c'est de déconnecter physiquement la nappe sata du deuxième disque dur et de la rebrancher soit sur le même port soit sur un autre.
Clair que j'ai de la chance 😉! sauf un jour, mais cela venait d'une de mes nappes SATA msi qui déconné!
Bon merci pour votre aide, je referais mes tests en externe quand j'arrêterais mon serveur (donc quand il n'y aura personne dessus).

e2fsck -c à fait son office mais des erreurs sont encore retournées par smartd donc l'hypothèse de nouvo09 est peut-être une réalité, d'où mes futurs tests en externe...

Sinon si vous tombez sur une astuce pour que Fedora ne se fige pas complètement lorsqu'un problème de ce style arrive, je suis toujours preneur (et désolé d'avoir l'air de me répéter). Car si cela vient effectivement des contrôleurs IDE le remplacement de la carte mère attendras (même si on m'as parlé d'une occasion de ce coté).

Je vous informe dès que j'ai fait mes tests et merci encore pour l'aide.

@basik : dans ce cas je n'ai pas windows.