Asumir los desafíos informáticos y de sostenibilidad de la IA generativa

La democratización de la IA y el apoyo de Intel a un ecosistema abierto satisfará las necesidades informáticas de la IA generativa.

Noticias

  • 28 de marzo de 2023

  • Contacto del equipo PR de Intel

  • Siga las noticias de Intel en las redes sociales:

    Logotipo de Twitter
    Icono de YouTube

author-image

Por

Las mejores cosas que debe saber:

  • ¿Cuáles son las noticias? Hoy, la mejor biblioteca de código abierto y ciencia abierta para el aprendizaje automático - Hugging Face. Compartió resultados de desempeño que demuestran que los aceleradores de hardware de IA de Intel ejecutan una inferencia más rápida que cualquier GPU actualmente disponible en el mercado, con una inferencia corriendo en Habana® Gaudi®2 de un 20 por ciento más rápida en un modelo de 176 mil millones parámetros que el A100 de Nvidia. Además, también ha demostrado eficiencia energética al ejecutar una carga de trabajo de visión computacional popular en un servidor Gaudi2, lo que muestra una ventaja de 1,8 veces en rendimiento por watt frente a un servidor A100 comparable. 1
  • ¿Por qué es importante? Las herramientas de IA generativas actuales como ChatGPT han creado entusiasmo en toda la industria por las nuevas posibilidades, pero el cómputo necesario para sus modelos ha puesto de relieve el desempeño, el costo y la eficiencia energética como las principales preocupaciones de las empresas de hoy en día.
  • La gran imagen: A medida que los modelos de IA generativos aumentan, la eficiencia energética se convierte en un factor crítico para impulsar la productividad con una amplia gama de funciones complejas de carga de trabajo de IA, desde el procesamiento previo a los datos hasta el entrenamiento y la inferencia. Los desarrolladores necesitan un enfoque de creación e implementación en todas partes con soluciones flexibles, abiertas, energéticamente eficientes y más sustentables que permitan que todas las formas de IA, incluida la IA generativa, alcancen todo su potencial.
  • Qué sigue: La IA ha recorrido un largo camino, pero todavía hay más por descubrir. El compromiso de Intel con la verdadera democratización de la IA y la sostenibilidad permitirá un mayor acceso a los beneficios de la tecnología, incluida la IA generativa, a través de un ecosistema abierto.
  • La conclusión: Un ecosistema abierto permite a los desarrolladores desarrollar e implementar IA en todas partes con la optimización por parte de Intel de marcos, bibliotecas y herramientas populares de código abierto . Los aceleradores de hardware de IA de Intel y la integración de aceleradores incorporados a los procesadores escalables de Intel® Xeon® de 4ª Generación ofrecen desempeño y mejoras en el desempeño por vatio para satisfacer las necesidades de desempeño, precio y sostenibilidad de la IA generativa.

La inteligencia artificial generativa (IA) con su capacidad de integrar contenido generado por humanos presenta una atractiva oportunidad para transformar muchos aspectos de cómo trabajamos y vivimos. Sin embargo, esta tecnología en rápida evolución expone las complejidades del cómputo necesario para aprovechar con éxito la IA en el centro de datos.
Intel cuenta con una gran inversión en un futuro en el que todos tienen acceso a esta tecnología y pueden implementarla a escala con facilidad. Los líderes empresariales están colaborando con socios de toda la industria para respaldar un ecosistema abierto de IA que se basa en la confianza, la transparencia y las opciones.

Adoptar la IA generativa abierta con un rendimiento superior

La IA generativa ha existido durante algún tiempo con modelos de lenguaje como GPT-3 y DALL-E, pero la entusiasmo por ChatGPT -un chatbot de IA generativo que puede tener conversaciones similares a las de los seres humanos- hace destacar los cuellos de botella de las arquitecturas tradicionales de centros de datos. También acelera la necesidad de soluciones de hardware y software que permitan que la inteligencia artificial alcance todo su potencial. La IA generativa basada en un enfoque abierto y una computación heterogénea hace que sea más ampliamente accesible y rentable implementar las mejores soluciones posibles. Un ecosistema abierto libera el poder de la IA generativa al permitir a los desarrolladores desarrollar e implementar IA en todas partes, priorizando a la vez la potencia, el precio y el desempeño.

Seminario web: Intel organizará un webinar para inversores sobre Centros de Datos e IA

Intel está dando pasos para garantizar que sea la elección obvia para habilitar la IA generativa con la optimización de los marcos, las bibliotecas y las herramientas de código abierto populares para obtener el mejor desempeño de hardware y, a la vez, eliminar la complejidad. Adoptar la IA generativa abierta con un rendimiento superior. Hoy, Hugging Face, la principal biblioteca de código abierto y ciencia abierta para el aprendizaje automático, publicó resultados que muestran que la inferencia se ejecuta más rápido en los aceleradores de hardware de IA de Intel que en cualquier GPU disponible actualmente en el mercado.  La inferencia sobre el modelo BLOOMZ de 176 mil millones de parámetros,  un modelo  de  lenguaje grande multilingüe (LLM) basado en transformadores de ciencia abierta, se ejecuta un 20 por ciento más rápido en el Habana Gaudi2 de Intel que en el A100-80G de Nvidia. BLOOM está diseñado para manejar 46 lenguajes y 13 lenguajes de programación y fue creado con total transparencia.  Todos los recursos detrás de la capacitación del modelo están disponibles y documentados por investigadores e ingenieros de todo el mundo. Para el modelo BLOOMZ de 7000 millones de parámetros más pequeño, Gaudi2 es 3 veces más rápido que el A100-80G, mientras que Habana® Gaudi® de primera generación ofrece una clara ventaja de precio-desempeño por encima de la A100-80G. La biblioteca Hugging Face Optimum Habana hace fácil implementar estos modelos LLMs con cambios de código mínimos en los aceleradores Gaudi.

Los investigadores de Intel Labs también utilizaron Gaudi2 para evaluar a BLOOMZ en un entorno de toma cero con LMentry, un análisis de desempeño recientemente propuesto para modelos de lenguaje. La precisión de BLOOMZ se escala con un tamaño de modelo similar al de GPT-3, y el modelo 176B BLOOMZ más grande supera a su homólogo GPT-3 de un tamaño similar, como lo demuestra el siguiente gráfico.

Evaluación automática de la salida del lenguaje generado por los modelos DE BLOOMZ (hasta 176 B de parámetros) en indicaciones LMentry de 100 K, utilizando aceleradores Habana Gaudi. 2

Además, Hugging Face compartió hoy que Stability AI's Stable Diffusion, otro modelo generativo de IA para la generación de texto a imagen de última generación y una alternativa de acceso abierto al popular generador de imágenes DALL-E, ahora funciona un promedio de 3,8 veces más rápido en los procesadores escalables Intel Xeon de 4ª Generación con Intel® Advanced Matrix Extensions incorporada (Intel® AMX). Esta aceleración se alcanzó sin cambios de código. Además, mediante el uso de la extensión de Intel para PyTorch con Bfloat16, un formato personalizado para el aprendizaje automático, la precisión mixta automática puede ser hasta otras 2 veces más rápida y se puede reducir la latencia a tan solo 5 segundos, casi 6,5 veces más rápida que la línea de base inicial de 32 segundos. Puede probar sus propias indicaciones en una demostración experimental de Stable Diffusion que se ejecuta en una CPU Intel (procesadores Xeon de 4ª generación) en el sitio web de Hugging Face.

"En estabilidad, queremos permitir que todos construyan la tecnología de IA por sí mismos", dijo Emad Mostaque, fundador y CEO de Stability AI. "Intel ha posibilitado que los modelos de difusión estables se ejecuten de manera eficiente en sus ofertas heterogéneas desde las CPU de 4ª Generación Sapphire Rapids hasta aceleradores como Gaudi y, por lo tanto, es un gran socio para democratizar la IA. Esperamos colaborar con ellos en nuestros modelos de lenguaje, video y código de próxima generación y más allá".

OpenVINO acelera aún más la inferencia de difusión estable. Cuando se combina con una CPU Xeon de 4ª generación, ofrece una aceleración de casi 2,7 veces en comparación con una CPU escalable de Intel® Xeon® de 3ª generación. Esta herramienta, respaldada por OpenVINO para acelerar los procesos integrales en arquitecturas Intel, reduce la latencia promedio en 3,5 veces más, o casi 10 veces en total.

Enfrentar el desafío generativo de cómputo de IA con Intel y Hugging Face

Enfrentar el desafío generativo de cómputo de IA con Intel y Hugging Face
Kavitha Prasad, vicepresidenta y gerente general de Datacenter AI, Cloud Execution and Strategy Group, y Lama Nachman, miembro de Intel y director del Intelligent Systems Research Lab, se unen a Jeff Boudier, director de producto de Hugging Face y al analista de la industria Daniel Newman para analizar el impacto de la IA generativa en las necesidades informáticas del mundo, por qué un ecosistema abierto es importante y cómo debemos estar pensando en el rol de la ética en la última ola de desarrollos de la IA. (Crédito: Intel Corporation)

Capítulos:

  1. "Qué es ChatGPT" – 1:14
  2. "Cómo abordar el desafío informático para la IA generativa" – 3:58
  3. "La importancia de un ecosistema abierto" – 6:42
  4. "Los modelos grandes están impulsando una mayor demanda informática" – 8:51
  5. "Implicaciones éticas de la IA" – 15:38
  6. "Democratizar la IA con Hugging Face" – 20:18 h
  7. "Transparencia de IA con un ecosistema abierto" – 27:36
  8. "Desarrolle una vez, implemente en todas partes" – 30:40

Abordar el precio, el desempeño yla eficiencia

Además, es necesario que se puedan ofrecer soluciones más sustentables a fin de abordar la necesidad crítica de reducir el uso intensivo de productos, a la vez que se siguen cumpliendo las crecientes necesidades de desempeño. Un ecosistema abierto puede eliminar las barreras que limitan el progreso, lo que permite a los desarrolladores innovar con las mejores herramientas de hardware y software para cada trabajo.

Gaudi2, desarrollado sobre la misma arquitectura de alta eficiencia que la de primera generación de Gaudi, que ofrece un desempeño de precio hasta un 40% mejor que los casos comparables basados en NVIDIA en la nube de AWS, aporta un nuevo nivel de desempeño y eficiencia a las cargas de trabajo de gran escala. También ha demostrado eficiencia energética al ejecutar cargas de trabajo de IA. En la evaluación de consumo de energía Supermicro entre el servidor Supermicro Gaudi2 y el servidor Supermicro Nvidia A100, Gaudi2 muestra una ventaja de 1,8 veces en el desempeño por watt con respecto al servidor A100 al ejecutar una carga de trabajo de visión computacional popular. 1

Las cargas de trabajo de IA a gran escala también necesitan un enfoque de creación e implementación en todas partes con soluciones flexibles y abiertas que permitan una mayor eficiencia energética. Los procesadores Xeon de 4ª generación son los procesadores para centros de datos más sustentables de Intel y permiten mayor eficiencia energética y ahorro de energía. Con aceleradores integrados como Intel AMX, la inferencia y el aumento del desempeño del entrenamiento de 10 veces se pueden lograr3 en una amplia variedad de cargas de trabajo y casos de uso de IA, mientras que también permiten un aumento del desempeño por watt hasta 14 veces superior al de la generación anterior de Intel. 4

Apoyar un futuro ético de IA

La IA generativa es una potente herramienta que apoya y amplifica la capacidad humana, pero es esencial que el desarrollo y la implementación de estos sistemas provengan de un enfoque centrado en el humano. Se necesita una gobernanza responsable de la IA para garantizar que estos sistemas alcancen todo su potencial sin compromisos éticos. La mejor manera de proteger la ética de la IA es a través de un ecosistema abierto que fomente la transparencia en los entrenamientos y los conjuntos de datos. Tener una cadena de suministro de IA transparente garantiza que la IA se esté desarrollando de manera responsable y reduce la deuda ética en cadena. Con tal transparencia, los desarrolladores se empoderan para evaluar la idoneidad de los conjuntos de datos y modelos, replicar los resultados y descubrir cualquier inquietud ética por su contexto de uso.

La IA generativa es una pieza de un mosaico más grande de la inteligencia artificial. El enfoque dedicado de Intel a la democratización de la IA significa que combina sus fortalezas únicas en hardware, el soporte para un ecosistema abierto y las inversiones adecuadas para el futuro para satisfacer las necesidades informáticas de todos los aspectos de la IA, incluida la IA generativa.

El enfoque de Intel con respecto a la computación y las herramientas de democratización permite el acceso a la construcción de modelos de grandes lenguajes, reduciendo costos y mejorando la equidad. Por ejemplo, Intel se está centrando en personalizar LAM para su uso con los pacientes con ELA a fin de permitirles comunicarse de manera más eficaz. Permitir a la comunidad de desarrolladores ajustar estos modelos para su uso permite que estos modelos sean más accesibles para aquellos que lo necesiten.

La IA ha recorrido un largo camino, pero todavía hay más por descubrir. Intel sigue fomentando un ecosistema abierto para generar confianza, ofrecer opciones y garantizar la interoperabilidad en toda la industria. Además, se compromete a utilizar un enfoque multidisciplinario, ofreciendo soluciones con eficiencia energética y centrándose en amplificar el potencial humano con IA a través de la colaboración entre el humano y la IA. Un enfoque abierto es la mejor vía para avanzar.

Nota del editor: este artículo se editó el 4 de abril de 2023 para describir con mayor precisión el modelo BLOOMZ y la comunidad Hugging Face.

1Informe de validación de Supermicro L12 de Gaudi2 HL-225H SYS-820GH-THR2, 20 de octubre de 2022

2Mediciones realizadas el 24 de marzo de 2023 con el servidor de aprendizaje profundo Habana Gaudi2 alojado en Intel Developer Cloud con 8 tarjetas mezzanine Gaudi2 HL-225H y procesadores de Intel Xeon de 3a Generación que funcionan con la versión 1.8.0 del software SynapseAI®, con batch_size=1.

3Consulte [A16] y [A17] en intel.com/performanceindex en la sección procesadores escalables Intel Xeon de 4ª generación.

4Consulte intel.com/processorclaims: Procesadores escalables Intel Xeon de 4ª generación. Reclamación E1.

Los resultados pueden variar.