Diagnóstico básico para errores de memoria ECC corregibles/no corregibles con® placas Intel para servidores

Documentación

Resolución de problemas

000024007

21/12/2023

Nota Para obtener asistencia sobre la solución de problemas descrita en este artículo, consulte las Especificaciones técnicas del producto para su plataforma de servidor.

¿Qué estoy viendo?

Eventos de código de corrección de errores (ECC) corregibles o no corregibles para módulos de memoria. Por ejemplo:

Mmry ECC Sensor SMI Handler Warning Memory CPU: 1, DIMM: D0 DIMM Rank: 1. - ECC corregible / otro error de memoria corregible - Afirmado.

¿Qué es el evento de error corregible del código de corrección de errores de memoria (ECC)?

El error corregible de ECC representa un desbordamiento de umbral para un módulo de memoria en línea dual (DIMM) determinado dentro de un período de tiempo determinado.


Cómo solucionarlo:

Los errores de datos de memoria se registran como corregibles o no corregibles. Consulte las instrucciones siguientes, según el tipo de error que encuentre:

error types

Notas
  • Si no hay ningún problema catastrófico (pantalla púrpura de la muerte (PSOD) o reinicio inesperado) y el error ECC corregible, incluido el error de corrección de datos de dispositivo doble adaptativo (ADDDC), es inferior a 10 eventos cada 24 horas para cada ubicación DIMM, que está dentro del límite de umbral, se recomienda supervisar el servidor para detectar cualquier recurrencia del error ECC en cada ubicación DIMM que desencadene el evento.
  • Si hay un problema catastrófico (pantalla púrpura de la muerte (PSOD) o reinicio inesperado) y el error ECC corregible, incluido el error de corrección de datos de dispositivo doble adaptativo (ADDDC), es menos de 10 eventos cada 24 horas para cada ubicación DIMM, se recomienda volver a colocar cada ubicación DIMM siguiendo los pasos a continuación:
    1. Apague el sistema y retire el cable de alimentación de CA.
    2. Identifique la ubicación del DIMM para volver a colocar. Consulte las especificaciones técnicas del producto de su plataforma de servidor para identificar la ubicación del DIMM.
    3. Vuelva a colocar el DIMM identificado.
    4. Inserte el cable de alimentación de CA y vuelva a alimentar el sistema.
    5. Observe durante 24 horas cualquier recurrencia del error ECC.
    6. Si el error ECC persiste con la misma ubicación DIM que se volvió a colocar, genere y envíe los registros de depuración y SEL, ambos generados desde la consola web de BMC a Intel Customer Support
  • Las características de prueba avanzada de memoria (AMT) se introdujeron en la pila de BIOS y firmware a partir de la revisión del BIOS 02.01.0014 para los sistemas servidores Intel® S2600BP, S2600WF y S2600ST; y a partir de la revisión del BIOS 22.01.0097 para el Sistema servidor Intel® S9200WK. Para estos productos, se recomienda habilitar las características de prueba avanzada de memoria (AMT) y reparación posterior al paquete (PPR) a través de la utilidad de configuración del BIOS para realizar una comprobación completa del estado de la memoria. Consulte el Capítulo 5 en Guía de reemplazo de memoria y prueba avanzada de memoria para productos Intel para servidores basados en el chipset Intel® 62X – Documento técnico para obtener pasos detallados.

Notas

Los errores del código de corrección de errores (ECC) se corrigen automáticamente. Según la configuración de confiabilidad de disponibilidad de servicio (RAS) de la memoria, el controlador de memoria integrado (IMC) puede desconectar el DIMM afectado.

Para diferentes plataformas de servidores Intel, existen algunas diferencias en su definición de eventos, consulte la Guía de solución de problemas del registro de eventos del sistema para su plataforma de servidor

Intel recomienda descargar y actualizar el BIOS del sistema a la versión más reciente disponible para su plataforma de servidor.

Si el sistema es un bloque de centro de datos Intel® para Nutanix* Enterprise Cloud, visite la página de Nutanix* Life Cycle Manager. Para obtener una lista de compatibilidad de hardware y firmware, visite la página de compatibilidad de hardware y firmware de Nutanix*.

Temas relacionados
Guía de reemplazo de memoria y prueba avanzada de memoria para productos para servidores Intel basados en el chipset Intel® 62X: documentación técnica
El papel de la memoria ECC
Cómo recuperarse de un IERR para placas para servidores Intel®
Mi servidor se bloquea y muestra este error: Processor CPU Machine chk
Para obtener actualizaciones de firmware y sugerencias para solucionar problemas
¿Qué es el evento de error corregible del código de corrección de errores de memoria (ECC)?
Herramienta SDLA Cómo contar errores ECC