Bonjour à tous,
Depuis quelques semaines Fedora me plante entre les mains régulièrement.
Régulièrement, les programmes n'arrivent plus à se lancer, le terminal se met à me renvoyer des erreur d'entrée sortie, et quand je passe sur une console en faisant ctrl+alt+F2, j'obtiens un message qui ressemble à ça et qui défile en continue :
ata1.00: failed to enable AA (error_mask=0x1)
ata1.00: failed to enable AA (error_mask=0x1)
ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000001
ata1.00: failed command: READ DMA EXT
ata1.00: cmd 25/00:08:9B:28:e1/00:00:18:00:00xe0 tag 20 dma 4096 in
	res 61x01:08:98:28:e1/00:00:18:00:00xe0 Enask 0x1 (deuice eror)
ata1.00: status: { DRDY DF ERR }
ata1.00: error: { ABRT }
ata1.00: failed to enable AA (error_nask=0x1)
ata1.00: failed to enable AA (error_nask=0x1)
ata1.00: exception Emask 0x0 Sfict 0x0 Sfirr OX0 action OX0
ata1.00: irq_stat 0x40000001
J'avoue que je n'y comprend rien du tout 🙁
Est ce que quelqu'un sait d'ou ça pourrait venir?
Est ce qu'il y a un problème matériel, ou est ce qu'une réinstallation propre de Fedora pourrait résoudre mon problème?
Erreur d'entrées/sorties, erreur sur ATA1, je pencherai pour un soucis matériel.

Démarre sur un Ultimate Boot CD ou un Hiren's boot CD et fait les tests disque dur et mémoire afin de vérifier l'état de ton matériel.
Ou tu peux lancer un test sur ton disque avec la commande smartctl -d ata -H /dev/sda et
smartctl -d ata -a /dev/sda (en partant du principe que ton disque est en sda) pour voir les erreurs.

Si il y a des erreurs, tenter de les réparer avec e2fsck ou autres.

@Raily, je ne connais pas Hiren's mais ça à l'air plutôt d'être utilisé pour réparer les secteurs de boot pour window.
@Refuznik : Ah oui les smartctl ! Bien vu ça, j'avais zappé 🙂

Mais ça n'utilise que les données smart ou on peut faire un examen complet de la surface du disque avec ? (vais voir ce que me dis man smartctl tiens ...)

Sinon concernant Hiren's :
ça propose les mêmes outils qu'un UBCD (memtest, les test hdd, cpu etc ...)
ça propose en plus un windows XP livecd (si si)
Et effectivement, des outils pour les erreurs de démarrage windows (bootmgr manquant et compagnie)
En soit, il est un peu plus complet qu'UBCD, je l'ai souvent utilisé quand je travaillait comme Technicien support et en SAV.
Parfois un simple remplacement de la nappe SATA corrige les problèmes, car souvent la qualité de celle ci est déplorable...

Mais envois ton rapport smart que l'on regarde si ce n'est pas un souci du disque.
Ca pourrait aussi être un problème avec la carte contrôleur ou la nappe éventuellement ... C'est un SATA ou un IDE ?

Sinon, oui un smartctl -a /dev/sda donnera les informations SMART 😉 Ensuite, on pourra statuer sur une solution =)
Par ailleurs, Hiren's ou HDD Regenerator permettent de réparer un secteur défectueux, et donc c'est une opération indépendante du système de fichier et donc de l'OS.
 smartctl -a /dev/sda
smartctl 6.2 2014-07-16 r3952 [x86_64-linux-3.17.4-200.fc20.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke,

Model Family:     Western Digital Scorpio Blue Serial ATA
Device Model:     WDC WD2500BEVT-75A23T0
Serial Number:    WD-WXN1E61ZNJA4
LU WWN Device Id: 5 0014ee 2b0e9a0ce
Firmware Version: 01.01A01
User Capacity:    250 059 350 016 bytes [250 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Sun Dec  7 22:08:36 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		( 7080) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  73) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x7037)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   153   145   021    Pre-fail  Always       -       1333
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1099
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3040
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1072
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       173
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       78
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       690277
194 Temperature_Celsius     0x0022   100   082   000    Old_age   Always       -       43
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
240 Head_Flying_Hours       0x0032   098   098   000    Old_age   Always       -       1753
241 Total_LBAs_Written      0x0032   200   200   000    Old_age   Always       -       3023526723
242 Total_LBAs_Read         0x0032   200   200   000    Old_age   Always       -       3229869231
254 Free_Fall_Sensor        0x0032   001   001   000    Old_age   Always       -       541

SMART Error Log Version: 1
ATA Error Count: 36426 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 36426 occurred at disk power-on lifetime: 3031 hours (126 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  -- -- -- -- -- -- --
  04 61 02 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 10 02 00 00 00 a0 08      02:41:36.650  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.648  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 08      02:41:36.648  SET FEATURES [Set transfer mode]
  ef 10 02 00 00 00 a0 08      02:41:36.647  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.646  IDENTIFY DEVICE

Error 36425 occurred at disk power-on lifetime: 3031 hours (126 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 08      02:41:36.648  SET FEATURES [Set transfer mode]
  ef 10 02 00 00 00 a0 08      02:41:36.647  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.646  IDENTIFY DEVICE
  ef 10 02 00 00 00 a0 08      02:41:36.635  SET FEATURES [Enable SATA feature]

Error 36424 occurred at disk power-on lifetime: 3031 hours (126 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  -- -- -- -- -- -- --
  04 61 02 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 10 02 00 00 00 a0 08      02:41:36.647  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.646  IDENTIFY DEVICE
  ef 10 02 00 00 00 a0 08      02:41:36.635  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.633  IDENTIFY DEVICE

Error 36423 occurred at disk power-on lifetime: 3031 hours (126 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  -- -- -- -- -- -- --
  04 61 02 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 10 02 00 00 00 a0 08      02:41:36.635  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.633  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 08      02:41:36.633  SET FEATURES [Set transfer mode]
  ef 10 02 00 00 00 a0 08      02:41:36.632  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.631  IDENTIFY DEVICE

Error 36422 occurred at disk power-on lifetime: 3031 hours (126 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 08      02:41:36.633  SET FEATURES [Set transfer mode]
  ef 10 02 00 00 00 a0 08      02:41:36.632  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 08      02:41:36.631  IDENTIFY DEVICE
  ef 10 02 00 00 00 a0 08      02:41:36.621  SET FEATURES [Enable SATA feature]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%         1         -
# 2  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Je n'y comprend pas grand chose, mais j'ai l'impression que je vais être bon pour racheter un disque 🙁
Vous en pensez quoi?
Peut-être un problème au niveau du kernel Linux ? Essaie de changer la nappe mais je doute que ça change quelque chose ... Le DD a l'air ok !
Si c'est un problème au niveau du Kernel, le passage à Fedora 21 devrait résoudre le problème?
Je plussoie VINDICATORs à propos de la nappe SATA, il y a pas mal de nappes de mauvaises qualitées qui ont des faux contacts avec l'usure. Change déjà ça avant tout, histoire de voir si les messages d'erreur continue.

Après le problème avec Smart, c'est qu'il ne detecte pas toujours une panne...
Je veux dire, smart est un minimum fiable : s'il dit qu'il y a un problème, c'est qu'il y en a un.
Mais s'il dit que tout va bien alors que tu as des messages d'erreur, vaut mieux faire un "vrai" test HDD (après avoir changé la nappe encore une fois).

A ce que je vois tu as un Western Digital, dans UBCD et dans Hiren, il y a l'utilitaire de diagnostic de disque dur fourni par Western Digital.
Faire un "test long" : ça prend entre 1 à 3 heures (ça porte bien son nom) et ça permettra d'être certain que le disque est sain ou non.
Le test long vérifie toute la surface du disque dur et, de mêmoire, peut éventuellement réparer les erreurs (en fait, il fait exclure les secteurs defectueux)