Cómo funciona el arranque resistente a fallas (FRB) en placas y sistemas de servidores Intel®

Documentación

Información y documentación sobre productos

000007197

11/12/2023


Síntoma(s):

  • ¿Qué es FRB?
  • ¿Cómo sé si está funcionando?
  • Arranque resistente a fallas en servidores Intel®.


Solución:

Arranque resistente a fallas

El BMC (Baseboard Management Controller) implementa los niveles 1, 2 y 3 de FRB. Si el procesador de arranque (BSP) predeterminado no completa el proceso de arranque, FRB intenta arrancar con un procesador alternativo.

  • El nivel 1 de FRB está diseñado para recuperarse de una falla de BIST detectada durante POST. Esta recuperación de FRB se maneja completamente mediante el código del BIOS.
  • El nivel 2 de FRB está destinado a recuperarse de un tiempo de espera de vigilancia durante POST. El temporizador de vigilancia para el nivel 2 de FRB se implementa en el BMC.
  • El nivel 3 de FRB está diseñado para recuperarse de un tiempo de espera de vigilancia en un restablecimiento completo o encendido. Esto proporciona funcionalidad de hardware para este nivel de FRB.

FRB-1

En un sistema con varios procesadores, el BIOS registra los procesadores de las aplicaciones en la tabla de varios procesadores (MP) y en las tablas ACPI APIC. Cuando lo inicia el BSP, si un procesador de aplicaciones (AP) no puede completar la inicialización dentro de un cierto tiempo, se supone que no funciona. Si el BIOS detecta que un procesador de aplicaciones ha fallado la BIST o no funciona, solicita al BMC que deshabilite ese procesador.

A continuación, el BMC genera un restablecimiento del sistema mientras deshabilita el procesador; el BIOS no verá el procesador defectuoso en el siguiente ciclo de arranque. El AP que falla no aparece en la tabla MP, ni en las tablas ACPI APIC, y es invisible para el SO. Si el BIOS detecta que el BSP ha fallado BIST, envía una solicitud al BMC para deshabilitar el procesador actual. Si no hay un procesador alternativo disponible, el BMC emite un pitido al altavoz y detiene el sistema. Si el BMC puede encontrar otro procesador, la propiedad del BSP se transfiere a ese procesador mediante un restablecimiento del sistema.

FRB-2

El segundo temporizador de vigilancia (FRB-2) en el BMC se establece para aproximadamente 6 minutos por BIOS y está diseñado para garantizar que el sistema complete BIOS POST. El temporizador FRB-2 se habilita antes de que el temporizador FRB-3 se deshabilite para evitar cualquier ventana de tiempo sin protección . Cerca del final de POST, antes de que se inicialicen las ROM de opción, el BIOS desactivará el temporizador FRB-2 en el BMC.

Si el sistema contiene más de 1 GB de memoria y el usuario elige probar cada DWORD de memoria, el temporizador de vigilancia se deshabilita antes de que comience la prueba de memoria extendida, ya que la prueba de memoria puede tardar más de 6 minutos en esta configuración. Si el sistema se bloquea durante POST, el BIOS no deshabilitará el temporizador en el BMC, lo que genera un restablecimiento asincrónico del sistema (ASR).

FRB-3

El primer temporizador (FRB-3) comienza la cuenta regresiva cada vez que el sistema sale de un restablecimiento completo, que suele ser de unos 5 segundos. Si el BSP se restablece correctamente y comienza a ejecutarse, el BIOS desactivará el temporizador FRB-3 en el BMC al anular la afirmación de la señal de FRB_TIMER_HLT (GPIO) y el sistema continuará con el POST. Si el temporizador expira debido a que el BSP no puede obtener o ejecutar el código del BIOS, el BMC restablece el sistema y deshabilita el procesador con errores.

El sistema continúa cambiando el BSP hasta que el BIOS POST supera la desactivación del temporizador FRB-3 en el BMC. El BMC emite códigos de sonido en el altavoz si no encuentra un buen procesador. El proceso de recorrer todos los procesadores se repite al reiniciar el sistema o al apagar y encender.