Bonjour,

A chaque démarrage, j'ai un message d'erreur:

genre avec "BOOT_IMAGE=/vmlinuz-4.3.5-300.fc23.x86_64 root=/dev/mapper/fedora_new--host--2-root ro rd.lvm.lv=fedora_new-host-2/root rd.lvm.lv=fedora_new-host-2/swap rhgb quiet LANG=fr_FR.UTF-8"

Dans le'interface "problem reporting" il est indiqué: Le journal du noyau indique que des erreurs matérielles ont été détectées. Ce problème n'est donc a priori pas logiciel"


en "raison": mce: [Hardware Error]: Machine check events logged

et plus encore en backtrace:

"The kernel log indicates that hardware errors were detected.
The data was saved by kernel for processing by the mcelog tool.
However, neither /var/log/mcelog nor system log contain mcelog messages.
Most likely reason is that mcelog is not installed or not configured
to be started during boot.
Without this tool running, the binary data saved by kernel
is of limited usefulness.
(You can save this data anyway by running 'cat </dev/mcelog >FILE').
The recommended course of action is to install mcelog.
If another hardware error would occur, a user-readable description
of it will be saved in system log or /var/log/mcelog."


or ya rien dans /var/log/mce

alors qu'un dmesg | grp mce me renvoie:

[ 0.042918] mce: CPU supports 7 MCE banks
[ 0.042931] mce: [Hardware Error]: Machine check events logged
[ 300.854209] mce: [Hardware Error]: Machine check events logged
[ 8070.412484] mce: [Hardware Error]: Machine check events logged


j'en déduit que MCE est bien activé (ce que me confirme systemd).
Quel est le soucis et comment comprendre cette rerreur matérielle?

D'avance merci
Dans l'immédiat, je ne peux pas vérifier. Mais j'ai l'impression qu'il y a deux choses, "mce" et "mcelog". Le premier pourrait être une fonction du kernel ou au boot, qui alimente le second, mcelog, qui traitera les informations détectées.

Ne manquerait-il pas un service? mcelog ou mcelogd? C'est ce que l'info semble expliquer:
Most likely reason is that mcelog is not installed or not configured
to be started during boot.
Without this tool running, the binary data saved by kernel
is of limited usefulness.

Un dmesg |grep -i "machine check", ça dit quoi? Les infos doivent être codées. Et mcelog sert à les décoder.

Une page avec des explications: http://www.advancedclustering.com/act-kb/what-are-machine-check-exceptions-or-mce/
Bonjour,

merci de ta réponse.
Alors un dmesg |grep -i "machine check" me donne:

[ 0.042928] mce: [Hardware Error]: Machine check events logged
[ 300.790244] mce: [Hardware Error]: Machine check events logged


sinon mcelog semble bien être activé:


[skarno@rocksteady ~]$ systemctl status mcelog
● mcelog.service - Machine Check Exception Logging Daemon
Loaded: loaded (/usr/lib/systemd/system/mcelog.service; enabled; vendor preset: enabled)
Active: active (running) since vr 2016-02-12 14:49:44 CET; 56min ago
Process: 927 ExecStartPre=/etc/mcelog/mcelog.setup (code=exited, status=0/SUCCESS)
Main PID: 948 (mcelog)
CGroup: /system.slice/mcelog.service
└─948 /usr/sbin/mcelog --ignorenodev --daemon --foreground

feb 12 14:49:44 rocksteady mcelog[932]: Generic CACHE Level-2 Generic Error
feb 12 14:49:44 rocksteady mcelog[932]: STATUS ae0000000040110a MCGSTATUS 0
feb 12 14:49:44 rocksteady mcelog[932]: MCGCAP c07 APICID 0 SOCKETID 0
feb 12 14:49:44 rocksteady mcelog[932]: CPUID Vendor Intel Family 6 Model 69
feb 12 14:49:44 rocksteady mcelog[932]: Hardware event. This is not a software error.
feb 12 14:49:44 rocksteady mcelog[932]: MCE 1
feb 12 14:49:44 rocksteady mcelog[932]: CPU 0 BANK 6
feb 12 14:49:44 rocksteady mcelog[932]: MISC 38a0000086 ADDR fef85fc0
feb 12 14:49:44 rocksteady mcelog[932]: TIME 1455284979 Fri Feb 12 14:49:39 2016
feb 12 14:49:44 rocksteady systemd[1]: Started Machine Check Exception Logging Daemon.


(c'est moi qui ai mis en gras)

Merci :hello:
Le systemctl status affiche une partie des infos. Une partie de ce qui t'intéresse est là, et est à décoder:

feb 12 14:49:44 rocksteady mcelog[932]: Hardware event. This is not a software error.
feb 12 14:49:44 rocksteady mcelog[932]: MCE 1
feb 12 14:49:44 rocksteady mcelog[932]: CPU 0 BANK 6
feb 12 14:49:44 rocksteady mcelog[932]: MISC 38a0000086 ADDR fef85fc0



Et pour les décoder, en attendant mieux, des explications sont donc là: http://www.advancedclustering.com/act-kb/what-are-machine-check-exceptions-or-mce/

Il doit y en avoir 3, comme ça, selon les time stamps. Chacune correspondant à ces trois lignes:

[ 0.042931] mce: [Hardware Error]: Machine check events logged
[ 300.854209] mce: [Hardware Error]: Machine check events logged
[ 8070.412484] mce: [Hardware Error]: Machine check events logged


Dans ton log, je vois en dernier:

feb 12 14:49:44 rocksteady systemd[1]: Started Machine Check Exception Logging Daemon


Il n'a rien enregistré/décodé de plus car mcelogd n'avait pas encore démarré? Il peut y avoir un problème de conf.

Sinon, qu'affiche ce qui suit? Toutes les lignes d'info mcelog qui t'intéresseront?
journalctl -u mcelog