Aviso de fallo del disco duro para el servidor modular Intel®

Documentación

Mantenimiento y desempeño

000007020

18/11/2017

Las unidades de disco duro siguen siendo el fallo más probable en una computadora, debido a los jefes de unidad y los platos que se mueven constantemente. Las fallas en el disco duro son una causa común para la pérdida de datos. La configuración de una matriz RAID proporciona una cierta cantidad de protección (RAID 1, RAID 10, RAID 5 o RAID 6). Sin embargo, la configuración de una matriz RAID no sustituye a una copia de seguridad periódica de datos personales o empresariales.

El servidor modular Intel® tiene una estructura de almacenamiento sofisticada. Los discos duros físicos disponibles se utilizan para crear pools de almacenamiento, en los que se crean una o más unidades virtuales, que se asignan a los diferentes servidores del sistema.

Por lo tanto, un error de unidad en un grupo de almacenamiento que contiene más de una unidad virtual puede afectar a todas las unidades virtuales de este grupo.

Los propietarios o administradores de un servidor modular Intel® pueden tomar ciertas medidas para prepararse para fallas en el disco duro en este sistema.

  • Adquiera uno o dos discos duros adicionales al momento de comprar el servidor modular Intel. Si un disco en un sistema de producción falla, las unidades compradas al mismo tiempo son:
    • Probabilidades de tener el mismo firmware de unidad
    • Estaría a la mano inmediatamente
  • Configure una unidad como hot spare general o dedicado.

  • Configure alertas de correo electrónico para obtener advertencias sobre las fallas de unidad o las condiciones de alerta de fallo predictivo (PFA).

    • El firmware de la unidad envía un PFA al módulo de controlador de almacenamiento Intel® (SCM) en caso de que el firmware de la unidad encuentre problemas reales o asumidos en el disco.

  • UNA condición de PFA normalmente da como resultado una migración de unidades predictivas inmediatas (PDM), si se configura un hot spare.

  • UNA condición de PFA es predictiva, por lo que la unidad afectada puede continuar funcionando, incluso si se ha producido un PDM. Para reemplazar dicha unidad, debe forzarse a desconectar manualmente, antes de quitarla del chasis. Estas acciones garantizan que los datos migrados previamente al hot spare se vuelvan a realizar en una nueva unidad después de insertarse en esta ranura. Esta actividad se captura en el registro de sucesos como transición.

  • PDMs y transiciones de nuevo a una nueva unidad ejecutar como actividades de fondo. Dependiendo de la carga del servidor durante un día de trabajo normal, esto puede tener algún impacto en el rendimiento o la duración de la migración/transición.

  • Cualquier migración puede dejar un disco duro en una condición obsoleta . UNA unidad puede volverse rancia después de que sus datos se hayan desactualizado. Esto puede ocurrir cuando el usuario desconecta la unidad (utilizando la acción Force offline), quitando físicamente la unidad, o mediante un error de disco o PDM. Cuando el grupo de almacenamiento se reconstruye para corregir la unidad que falta, la unidad se marca como rancia. Para hacer que un disco físico esté disponible después de que se haya quedado obsoleto, los usuarios deben seleccionar la unidad en la GUI del servidor modular y utilizar la acción Borrar condición obsoleta para volver a la unidad en línea. (No tome estas acciones si la unidad estaba marcada como rancia debido a una falla de la unidad.)

  • Se capturará un error repentino del disco en el registro de sucesos mediante reajustes de unidades constantes y tiempos de espera de comandos en esta unidad. UNA falla en la unidad desencadena una alerta de correo electrónico si se configura la alerta. Un error de este tipo podría dejar el grupo de almacenamiento en una condición crítica hasta que se reconstruya la unidad y afectar el acceso de los módulos de cálculo a este grupo de almacenamiento. Si se configura un repuesto en caliente, los datos de esta unidad migrarán al repuesto en caliente y la transición hacia atrás cuando se reemplace la unidad defectuosa. Si no se configura ningún hot spare, esto puede dejar el pool de almacenamiento, las unidades virtuales y los módulos de cómputo vulnerables a una segunda falla en la unidad. Esta vulnerabilidad depende del nivel de RAID configurado. En tal situación, reemplace la unidad fallida tan pronto como sea posible. De esta manera una reconstrucción puede iniciar y mantener el impacto en los módulos de cálculo y su operación tan breve como sea posible.

  • Es concebible que más de una unidad puede fallar, ya sea alrededor de la misma hora o poco después de la otra. Sólo se puede ejecutar una actividad de fondo a la vez. Por lo tanto, reemplace primero el disco físico más vulnerable (una unidad en una matriz RAID 5, por ejemplo) para controlar que la reconstrucción de esta matriz comience primero. Una vez finalizada la migración de este disco, reemplace la segunda unidad.

  • Hay una función de ayuda disponible en la GUI del servidor modular Intel®. Compruebe la ayuda de cualquier acción que se ofrezca en los componentes del servidor modular Intel® para establecer lo que hace y cuándo usarlo.

Si los propietarios o administradores del servidor modular Intel® se encuentran con otras condiciones relacionadas con fallas de unidad, que no se explican en la ayuda de GUI o en este documento, comuníquese con el servicio de asistencia al cliente de Intel en su región.