Contenido de resolución de problemas para ayudar a localizar un módulo de memoria defectuoso
¿Cómo puedo determinar la ubicación adecuada de la unidad central de procesamiento (CPU) (1 o 2) y el banco de módulos de memoria en línea dual (DIMM) cuando hay un módulo de memoria sospechoso defectuoso?
Proceda como se indica a continuación, lo que se basa en los pasos de diagnóstico para encontrar el DIMM que está causando un IErr ECC_error:
Nota | Asegúrese de que la herramienta ipmitool (consulte IPMI, V2.0, Herramienta de prueba de comandos) esté cargada o disponible para ejecutarse en ese nodo. Esto le permitirá examinar el Registro de eventos del sistema (que es un archivo binario). |
Nota |
Examine el Registro de eventos del sistema mirando la Lista extendida de esta manera:
#sudo ipmitool sel elist | Menos
1c | 24/08/2018 | 22:51:49 | Memoria Mmry Sensor ECC | ECC incorregible | Afirmó
1d | 24/08/2018 | 22:51:49 | Memoria Mmry Sensor ECC | ECC incorregible | Afirmó A continuación, puede inspeccionar cualquier entrada en el registro de eventos del sistema haciendo referencia al valor hexadecimal (hexadecimal) en la primera columna: #sudo ipmitool sel obtener 0x1c
ID de registro SEL: 001c Tipo de registro : 02 Marca de tiempo : 08/24/2018 22:51:48 ID del generador : 0033 EvM Revisión : 04 Tipo de sensor: Memoria Número de sensor : 02 Tipo de evento: Descrete específico del sensor Dirección del evento: Evento de aserción Datos de sucesos (RAW): a10103 Interpretación del evento : Falta Descripción : ECC incorregible ID del sensor : Sensor Mmry ECC (0x2) ID de entidad: 32.1 (dispositivo de memoria) Tipo de sensor: Memoria (0x0c) |
Depurar la ubicación del registro de los datos de eventos (RAW)
- Ingrese ese número en una calculadora:
- Mire el valor binario (BIN), específicamente los últimos 8 bytes. En la imagen de arriba, mira los bits más a la derecha (como se resaltan).
- Convierta eso a decimal y, como se indica en la tabla a continuación, los bits más a la derecha representan el valor del zócalo DIMM: 0 = A, 1 = B, 2 = C, 3 = D, etc.
Los segundos bits situados más a la derecha representan el zócalo de la CPU.
En este caso, b0000 = CPU1. b0001 sería igual a CPU2.
Cuando se utiliza IPMI, no es posible obtener el nivel de detalle como se muestra en la interfaz gráfica de usuario (GUI) web del controlador de administración de placa base (BMC). Sin embargo, puede usar Redfish ejecutando el siguiente comando: curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0.
Nota |
skiptoken es por donde empezar. Normalmente devolverá 50 registros, por lo que skiptoken será 0, 50, 100, etc. Al final de la respuesta, te dice cuál debería ser el próximo skiptoken para continuar leyendo. |
Como alternativa, puede utilizar la Intel® Server Debug and Provisioning Tool (Intel® SDP Tool) del sistema administrador del servidor que ejecuta el comando SDPtool <ipv4> <username> <password> debuglog <filename> .