Bonjour,

Depuis une dixaine de jours mon pc reeboot sans prévenir de temps en temps. Le phénomène est alléatoire et ne semble pas lié à une utilisation particulière (la dernière fois, je se surfais sur le net en écoutant de la musique, la fois précédente je retouchais des photos ...).
Après quelques recherches j'en suis arrivé à plusieurs hypothèses :
- Une allimentation trop faible qui supporte mal le micro-coupures de courant (j'ai déménagé il y a peu de temps dans un appartement ancien)
- Une surchaufe du CPU ( Bios vérolé ?)
- Une surcahufe de la carte graphique (Bios vérolé ?)
- De la Ram défectueuse (?)

Avant de me lancer dans des oppérations délicates comme le MAJ de mon BIOS (je n'ai jamais fais ça et l'idée ne me rassure pas vraiment), j'aimerais arrivé à isloer le problème.

Avez vous des idées ?

Pour info : j'utilise Fedora 15 64 bits avec cette configue materielle.
Bonjour

ça m'était arrivé à une époque et ça venait de la mémoire vive.

As tu plusieurs barrettes ?

L'outil pour checker ça c'est memtest. Un bon vieil outil disponible sur les CD "couteau suisse" des utilisateurs de Windows... ou plus simplement sur les CD d'install des distrib Linux 😉

Lorsque tu as du temps devant toi, prends ton CD d'install de Fedora, boot dessus et au lieu de lancer l'installation lance memtest.

Il faut savoir que memtest est un test qui dure l'infini.
Si le test ne trouve rien ça ne veut pas dire que tout va bien, de même s'il trouve des problèmes ça ne veut pas forcément dire que la mémoire vive est incriminée (même si tout est fait pour ne presque que dépendre de la mémoire vive et donc l'incriminer)

Bref... Si je me souviens bien, s'il ne se passe rien pendant 4h tu peux presque considérer ta mémoire vive comme saine. A l'inverse, s'il trouve plusieurs erreurs dans la première heure c'est mauvais signe (comme c'est cyclique la limite des "4h" est variables avec ta configuration).
Pour plus de poids dans le résultat, diminue ta mémoire vive au maximum (pour tourner plus vite sur les mêmes zones). Teste tes barrettes séparément.
N'hésite pas à faire plusieurs fois le test aussi, pour valider tes hypothèses, voir si c'est bien répétable.


Dans mon cas, une des deux barrettes de mon portables était défaillante (la chaleur tout ça tout ça...) et le pc plantait systématiquement lorsque la zone incriminée était utilisée.
J'ai pu déterminer laquelle et la changer.

Bon courage
Ca marche, je teste ça dès que j'ai du temps devant moi (beaucoupde temps).
Si je comprends bien, comme j'ai 2 barrettes, j'ai intérêt à les tester séparément : 4h/barrette mmm une bonne journée en perspective.
merci pour les infos.
Oui. La bonne nouvelle c'est que pendant ce temps là tu peux faire autre chose 😉
Quelques infos suppléméentaires :
- Le PC freeze une petite seconde avant de rebooter
- Lors du dernier plantage, un écran (jusque là inconnu) avec le logo MSI est apparu au redémarage indiquant "a hyper transport sync flood error occurred on last boot"

J'ai lu sur divers forum que le problème peut être résolu en augmentant le tension aloué à la RAM dans le bios et en désactivant le Cool and Quiet.

PS : Je n'ai pas encore eu le temps de tester ma RAM (j'ai besoinde mon pc en ce moment ...), mais j'ai tout dépoussièré et changé les barettes de places (j'ai 2 slots de libre)
MSI c'est ta marque de quoi ?

Tu as quoi comme carte graphique ? une fanless ?
As tu une sortie écran sur ta carte mère ?

Quelle est la fréquence des reboot, disons par exemple, sur une journée ?


Le problème semble bel et bien hardware. A part tester les composants, d'un point de vue Fedora ya pas grand chose à faire je le crains...
Il faut peut-etre regarder sur le site de MSI si cette erreur est documentée ?
Rapty wrote:MSI c'est ta marque de quoi ?

Tu as quoi comme carte graphique ? une fanless ?
As tu une sortie écran sur ta carte mère ?

Quelle est la fréquence des reboot, disons par exemple, sur une journée ?


Le problème semble bel et bien hardware. A part tester les composants, d'un point de vue Fedora ya pas grand chose à faire je le crains...
MSI, c'est ma carte mère : 770-G45. Il y a une sortie VGA intégré
Carte graphique : ATI Radeon HD 5770, avec ventilo
Processeur : AMD Phenom II X4 955 Black Edition avec radiateur d'origine

Les reboots sont vraiment aléatoires parfois 2 en 30mn, parfois rien en 2h ... mais sur une journée, peut être 5 ou 6 fois. La vidéo ne fait rien planter, mais c'est presque systèmatique lorceque j'utilise ma connection internet et que j'écoute de la musique en même temps ...

nouvo09 wrote:Il faut peut-etre regarder sur le site de MSI si cette erreur est documentée ?
Je n'ai rien trouvé sur leur site mais je continu à chercher.
Ah si, j'ai trouvé ça : http://forum-en.msi.com/index.php?topic=137245.0
Je ne suis pas le seul avec ce broblème une petite recherche google renvoi sur beaucoup de forums : http://www.google.fr/#hl=fr&sa=X&ei=dsGlTv3yJJHsOd-u3OgO&ved=0CBgQBSgA&q=770-G45+hypertransport+sync+flood+error&spell=1&bav=on.2,or.r_gc.r_pw.,cf.osb&fp=d74067b78b411558&biw=1520&bih=831

Les résultats sont mitigés, mais il semble que le problème est parfois résolu en changeant les paramettres d'allimentations du CPU et de la RAM dans le BIOS.
Wesch wrote:Les résultats sont mitigés, mais il semble que le problème est parfois résolu en changeant les paramettres d'allimentations du CPU et de la RAM dans le BIOS.
Ben le problème est que c'est un symptôme qui peut être provoqué par diverses raisons.

Un peu comme si tu allais voir le médecin avec "j'ai de la fièvre" :-?

Bon courage, encore une fois ! :roll:
ok, Merci, je ne me décourage pas encore.
Mais je doit régler çà au plus vite, ... j'ai pas mal de taf et j'ai besoin d'un pc opérationnel ...
Ce genre de truc tombe toujours au bon moment.

Sinon, si j'envisage de flasher mon bios pour une version plus récente, qu'est ce que vous pensez de flashrom comme décrit ici (en ang) : http://forum-en.msi.com/index.php?topic=138659.0 ?
Ou est-ce qu'il vaut mieux créer une clef usb bootable avec unetbootin et y mettre les fichiers du futur bios ?
Salut

Sur les dernières cartes mères, il y a souvent un double bios qui te permet de pas le crasher.
Et oui flashrom, que j'ai testé sur Ubuntu mais pas sous Fedora, je te dirais : ATTENTION.

Clé USB + bios dessus, je suis septique : à voir si un autre contrib confirme ou pas.

Tente de mettre ton bios par défaut.
Salut,
Alors un memtest de 4h sur chaque barettes n'a trouvé aucune erreur sur la première et 2 erreurs sur la seconde. Il faut en conclure quoi ?
Sachant que j'ai testé de ne faire tourné le système que sur la barette "saine". Ca n'a rien changé.
Du coup j'ai effacé le CMOS en suivant les instruction du manuel de ma carte mer et j'ai remis les réglages bios par defaut.
Le problème persiste !

En plus de tout ça : au redémarage, après avoir effacé le CMOS, j'ai eu une erreur fedora. Je n'ai évidemment pas noté le message exacte ... mais il m'était demander de rentrer le mp root et de lancer
fsck
(ou quelquechose dans ce gout là) manuelement. Ce que j'ai fait. après un nouveau redémarage, tout semble fonctionner ; exepté que quand je lance
# yum update
yum me retourne ça
Loaded plugins: langpacks, presto, refresh-packagekit
adobe-linux-i386                                         |  951 B     00:00     
darktable-nightly                                        | 2.9 kB     00:00     
fedora-chromium-stable                                   | 3.4 kB     00:00     
rpmfusion-free                                           | 3.3 kB     00:00     
rpmfusion-free-updates                                   | 3.3 kB     00:00     
rpmfusion-nonfree                                        | 3.3 kB     00:00     
rpmfusion-nonfree-updates                                | 3.3 kB     00:00     
Error: Cannot retrieve repository metadata (repomd.xml) for repository: fedora. Please verify its path and try again
edit : j'ai essayé
# yum clean all
# yum makecache
# yum update
, aucun changement
fsck
C'est la commande pour dire qu'il a besoin de vérifier le disque dur.
En root rapporte ce que te donne la commande suivante :
su -lc 'smartctl -a /dev/sda'
Remplace le A de sda par la lettre de ton disque!

A tout les coups tu a un disque dur seagate 7200.12...

Pour info pénurie de disque dur en vue, prix qui monte en flèche (c'est au cas où tu doive changer de disque dur...).
VINDICATORs wrote:En root rapporte ce que te donne la commande suivante :
su -lc 'smartctl -a /dev/sda'
Remplace le A de sda par la lettre de ton disque!

A tout les coups tu a un disque dur seagate 7200.12...

Pour info pénurie de disque dur en vue, prix qui monte en flèche (c'est au cas où tu doive changer de disque dur...).
ca me renvoi
bash: smartctl: command not found...
... il n'y aurait pas un paquet a installer pour que ca fonctionne ?

Manqué, mon disque dur est un Samsung Spinpoint F1 HD753LJ :-P
yum install smartmontools
ok, voila ce que renvoi smartctl -a /dev/sda :
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.40.6-0.fc15.x86_64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD753LJ
Serial Number:    S13UJ9CZ300178
LU WWN Device Id: 5 0024e9 2021d12da
Firmware Version: 1AA01118
User Capacity:    750,156,374,016 bytes [750 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 3b
Local Time is:    Wed Oct 26 21:27:29 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		( 9465) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 159) minutes.
Conveyance self-test routine
recommended polling time: 	 (  17) minutes.
SCT capabilities: 	       (0x003f)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   083   083   011    Pre-fail  Always       -       6110
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       470
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       422
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       470
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   076   066   000    Old_age   Always       -       24 (Min/Max 20/24)
194 Temperature_Celsius     0x0022   075   062   000    Old_age   Always       -       25 (Min/Max 20/25)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       2832335
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   099   099   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
edit : yum update refonctionne correctement ... le dépot était peut être simplement indisponnible.
Wesch wrote:Salut,
Alors un memtest de 4h sur chaque barettes n'a trouvé aucune erreur sur la première et 2 erreurs sur la seconde. Il faut en conclure quoi ?
Envoyer directement les barrettes défectueuses en garantie !
MarbolanGos wrote: Envoyer directement les barrettes défectueuses en garantie !
Elles ne sont plus sous garantie. Je suis bon pour racheter de la mémoire. Cependant, le problème persiste en enlevant la barrette défectueuse ...