Cómo funciona el arranque resistente a fallas (FRB) en las Placas para servidores Intel® y los Sistemas para servidor Intel®

Documentación

Información y documentación sobre productos

000007197

01/11/2017


Síntoma (s):
  • ¿Qué es FRB?
  • ¿Cómo sé si está funcionando?
  • Arranque resistente a fallas en los servidores Intel®.

Solución:

Arranque resistente a fallas

El BMC (controlador de administración de la placa base) implementa los niveles FRB 1, 2 y 3. Si el procesador de arranque predeterminado (BSP) no logra completar el proceso de inicio, FRB intenta arrancar con un procesador alternativo.

  • El nivel 1 de FRB está diseñado para recuperarse de un fallo de la detectada durante POST. Esta recuperación de FRB es manejada completamente por el código del BIOS.
  • FRB nivel 2 está diseñado para recuperarse de un tiempo de espera de Watchdog durante POST. El temporizador watchdog para FRB nivel 2 se implementa en el BMC.
  • FRB nivel 3 está diseñado para recuperarse de un tiempo de espera de Watchdog en Hard Reset o encendido. Esto proporciona funcionalidad de hardware para este nivel de FRB.

FRB-1

En un sistema multiprocesador, el BIOS registra los Procesadores de aplicaciones en la tabla de varios procesadores (MP) y en las tablas ápice de ACPI. Cuando se inicia por el BSP, si un procesador de aplicaciones (AP) no completa la inicialización dentro de un determinado tiempo, se supone que no es funcional. Si el BIOS detecta que un procesador de aplicaciones ha fallado o no es funcional, solicita que el BMC deshabilite ese procesador.

A continuación, el BMC genera un restablecimiento del sistema mientras deshabilita el procesador; el BIOS no verá el procesador fallido en el siguiente ciclo de arranque. La AP que falla no está listada en la tabla MP, ni en las tablas de ápice de ACPI, y es invisible para el SO. Si el BIOS detecta que el BSP ha fallado, envía una solicitud al BMC para deshabilitar el procesador actual. Si no hay ningún procesador alternativo disponible, el BMC emite un pitido al altavoz y detiene el sistema. Si el BMC puede encontrar otro procesador, la propiedad BSP se transfiere a ese procesador a través de un restablecimiento del sistema.

FRB-2

El segundo temporizador Watchdog (FRB-2) en el BMC se configura durante aproximadamente 6 minutos por BIOS y está diseñado para garantizar que el sistema complete el POST del BIOS. El temporizador FRB-2 está activado antes de que el temporizador FRB-3 esté desactivado para evitar cualquier ventana sin protección del tiempo. Cerca del final del POST, antes de inicializar las ROMs de opción, el BIOS desactivará el temporizador FRB-2 en el BMC.

Si el sistema contiene más de 1 GB de memoria y el usuario elige probar cada DWORD de memoria, el temporizador Watchdog se desactiva antes de que se inicie la prueba de memoria extendida, ya que la prueba de memoria puede tardar más de 6 minutos en esta configuración. Si el sistema se cuelga durante el POST, el BIOS no desactivará el temporizador en el BMC, lo que genera un restablecimiento del sistema asincrónico (ASR).

FRB-3

El primer temporizador (FRB-3) comienza a contar hacia abajo cada vez que el sistema sale de Hard Reset, que suele ser de unos 5 segundos. Si el BSP se reinicia y comienza a ejecutarse correctamente, el BIOS desactivará el temporizador FRB-3 en el BMC al devalidar la señal FRB_TIMER_HLT (GPIO) y el sistema continuará con el mensaje. Si el temporizador expira debido a que el BSP no ha recuperado o ejecutado el código del BIOS, el BMC restablece el sistema y deshabilita el procesador fallido.

El sistema continúa cambiando el BSP hasta que el POST de la BIOS consigue más allá de deshabilitar el temporizador FRB-3 en el BMC. Los códigos de pitido del BMC suenan en el altavoz si no logra encontrar un buen procesador. El proceso de ciclar a través de todos los Procesadores se repite al reiniciar el sistema o al ciclo de alimentación.