Las nuevas herramientas Intel oneAPI 2023 maximizan el valor del próximo hardware Intel®

Las nuevas capacidades de las herramientas de Intel amplían la productividad multiplataforma.

Noticias

author-image

Por

Novedades: Intel anunció hoy la versión 2023 de las herramientas Intel® oneAPI, disponibles en Intel® Developer Cloud y se lanzan a través de canales de distribución regulares. Las nuevas herramientas oneAPI 2023 son compatibles con los próximos procesadores escalables Intel® Xeon® de 4ª generación, Intel® Xeon® la serie CPU Max y las GPU de centros de datos Intel®, incluidas la serie Flex y la nueva serie Max. Las herramientas ofrecen mejoras en el desempeño y la productividad, y también agregan compatibilidad con nuevos complementos de Codeplay1 que facilitan que los desarrolladores escriban código SYCL para arquitecturas que no son de Intel GPU. Estas herramientas basadas en estándares ofrecen opciones de hardware y facilitan el desarrollo de aplicaciones de alto desempeño que se ejecutan en sistemas multiarquitectura.

“Estamos viendo resultados alentadores en el rendimiento de las aplicaciones en nuestros sistemas de desarrollo que utilizan aceleradores de GPU Intel Max Series, aplicaciones creadas con compiladores y bibliotecas oneAPI de Intel. Para la ciencia informática de clase líder, valoramos los beneficios de la portabilidad de código desde estándares de programación multivendor y multiarquitectura, como los marcos de inteligencia artificial Python y SYCL, como PyTorch, acelerados por las bibliotecas Intel. Esperamos los primeros descubrimientos científicos exascales a partir de estas tecnologías en el sistema Aurora el próximo año".

–Timothy Williams, director adjunto, División de Ciencias Computacionales Argonne.

Qué ofrecen las herramientas oneAPI: Las herramientas para desarrolladores de Intel 2023 incluyen un conjunto integral de los compiladores y bibliotecas más recientes, herramientas de análisis y porción, y marcos optimizados de inteligencia artificial (IA) y aprendizaje automático para desarrollar aplicaciones de alto desempeño y multiarquitectura para CPU, GPU y FPGAs, con tecnología oneAPI. Las herramientas permiten a los desarrolladores cumplir rápidamente con los objetivos de desempeño y ahorrar tiempo mediante el uso de una base de código único, lo que permite más tiempo para la innovación.

Esta nueva versión de las herramientas oneAPI ayuda a los desarrolladores a aprovechar las capacidades avanzadas del hardware Intel®

  • Procesadores Intel Xeon Scalable y Xeon CPU Max Series de cuarta generación con Intel® Advanced Matrix Extensions (Intel® AMX), Intel® Quick Assist Technology (Intel® QAT), Intel® AVX-512, bfloat16 y más.
  • ® Intel® Data Center GPUs, incluidas las series Flex con codificador AV1 basado en hardware y GPUs de la serie Max con flexibilidad de tipo de datos, Intel® Xe Matrix Extensions (Intel® XMX), motor vectorial, Intel® Xe Link y otras características.

Ejemplos de análisis de desempeño:

  • La inferencia y el desempeño del entrenamiento de aprendizaje profundo de MLPerf™ DeepCAM con La CPU Xeon Max mostraron una ganancia de desempeño de 3.6 veces superior a Nvidia en 2.4 y AMD como la línea base 1.0 utilizando Intel® AMX habilitadas por la biblioteca de redes neuronales profundas Intel® oneAPI (oneDNN). 2

Descarga la imagen completa
 

  • Las cargas de trabajo LAMMPS (simulador paralelo masivo atómico/molecular a gran escala) que se ejecutan en la CPU Xeon Max con núcleos descargados en seis GPU de la serie Max y optimizadas por las herramientas oneAPI, dieron como resultado una ganancia de rendimiento de hasta 16 veces mayor con respecto a Intel Xeon de tercera generación o AMD Milan. 3

Descarga la imagen completa

Desempeño avanzado del software:

  • Intel® Fortran Compiler proporciona compatibilidad con todos los estándares de lenguaje Fortran durante Fortran 2018 y amplía la compatibilidad con descarga de GPU OpenMP, acelerando el desarrollo de aplicaciones compatibles con estándares.
  • La biblioteca Math Kernel de Intel® oneAPI (oneMKL) con capacidad extendida de descarga OpenMP mejora la portabilidad.
  • Intel® oneAPI Deep Neural Network Library (oneDNN) habilita las funciones avanzadas de aprendizaje profundo de Intel Xeon de cuarta generación y los procesadores de CPU Max Series, incluidos Intel® AMX, Intel AVX-512, VNNI y bfloat16.

A fin de aumentar la productividad de los desarrolladores, la compatibilidad enriquecida con SYCL y las sólidas herramientas de análisis y migración de códigos, resulta más fácil desarrollar código para sistemas de multiarquitectura.

  • El compilador DPC++/C++ Intel® oneAPI agrega compatibilidad con nuevos complementos del software Codeplay para Nvidia y GPU AMD a fin de simplificar la escritura de código SYCL y ampliar la portabilidad de código en estas arquitecturas de procesadores. Esto proporciona un entorno de construcción unificado con herramientas integradas para la productividad entre plataformas. Como parte de esta solución, Intel y Codeplay ofrecerán soporte de prioridad comercial a partir del plug-in oneAPI para GPU Nvidia.
  • La migración de código CUDA a SYCL ahora es más fácil con más de 100 API de CUDA agregadas a la Intel® DPC++ Compatibility Tool, que se basa en SYCLomatic de código abierto.
  • Los usuarios pueden identificar las amenazas de MPI a escala con Intel® VTune™ Profiler.
  • Intel® Advisor agrega análisis automatizados en la cubierta de la GPU Intel® para centros de datos serie Max a fin de identificar y priorizar los cuellos de botella de memoria, caché o cómputo, con información procesable para optimizar los costos de reutilización de transferencia de datos de la descarga de CPU a GPU.

Descarga la imagen completa

¿Por qué es importante? Dado que el 48 % de los desarrolladores se enfoca en sistemas heterogéneos que utilizan más de un tipo de procesador4, se requiere una programación multiarquitectura más eficiente para abordar el creciente alcance y escala de las cargas de trabajo del mundo real. El uso del modelo de programación abierta y unificada de oneAPI con las herramientas multiarquitectura basadas en estándares de Intel ofrece libertad de elección en cuanto a hardware, desempeño, productividad y portabilidad de código para CPU y aceleradores. El código escrito para modelos de programación propietarios, como CUDA, no tiene portabilidad con otro hardware, lo que crea una práctica de desarrollo siloed que bloquea las organizaciones en un ecosistema cerrado.

Acerca de la adopción del ecosistema oneAPI: La adopción continua por el ecosistema de oneAPI está en curso con la creación de nuevos Centros de Excelencia. Uno, el Open Zscale Lab de la Universidad de Cambridge, se centra en portar códigos candidatos significativos de exascale a oneAPI, incluidos ENEP, FEniCS y AREPO. El centro ofrece cursos y talleres en los que expertos enseñan las metodologías y las herramientas de oneAPI para la compilación y portabilidad de códigos, y para optimizar el desempeño. En total, se han establecido 30 Centros de Excelencia OneAPI .

Más contexto: Codeplay anuncia oneAPI para hardware NVIDIA y AMD GPU | Detalles de las características de las herramientas Intel oneAPI 2023 | Presentamos las herramientas Intel oneAPI 2023 (blog) | Vista previa de la versión de Intel oneAPI 2023 (grabación de seminarios web) | oneAPI y Codeplay

La letra pequeña:

1 Codeplay es una empresa de Intel.

2 MLPerf™ DeepCAM:

  • Ganancias de desempeño no verificadas en el análisis de referencia de entrenamiento de MLPerf™ HPC-AI v 0.7 DeepCAM con Pytorch 1.11 optimizado. Resultado no verificado por MLCommons Association. Los resultados no verificados no han pasado la revisión de MLPerf™ y pueden utilizar metodologías de medición o implementaciones de cargas de trabajo que no son coherentes con la especificación MLPerf™ para resultados verificados. El nombre y el logotipo de MLPerf™ son marcas comerciales de MLCommons Association en los Estados Unidos y otros países. Todos los derechos reservados. Queda estrictamente prohibido el uso no autorizado. Para obtener más información, visita www.mlcommons.org.

  • AMD EPYC 7763: Prueba realizada por Intel al 04/07/2022. 1 nodo, dos AMD EPYC 7763, HT activado, turbo desactivado, memoria total de 512 GB (16 ranuras/ 32 GB/ 3200 MHz, DDR4), BIOS AMI 1.1b, 0xa001144 ucode, OS Red Hat Enterprise Linux 8.5 (Ootpa), kernel 4.18.0-348.7.1.el8_5.x86_64, compilador gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4), https://github.com/mlcommons/hpc/tree/main/deepcam, resalte 1.11.0a0+git13cdb98, 1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+ cpu-cp38-cp38-linux_x86_64.whl, Intel MPI 2021.5, Python3.8.

  • Procesador escalable Intel® Xeon® 8380: Prueba realizada por Intel a partir del 04/07/2022. 1 nodo, 2 procesadores Intel® Xeon® 8380, HT activado, turbo desactivado, memoria total de 512 GB (16 ranuras/ 32 GB/ 3200 MHz, DDR4), BIOS SE5C6200.86B.0022.D64.2105220049, ucode 0xd0002b1, OS Red Hat Enterprise Linux 8.5 (Ootpa), kernel 4.18.0-348.7.1.el8_5.x86_64, compilador gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4), https://github.com/mlcommons/hpc/tree/main/deepcam, 1.11.0aa0+git13cdb98, 1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+ cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5, Python3.8.

  • Intel® Xeon® serie CPU Max (modo caché) AVX-512: Prueba realizada por Intel el 25 de enero de 2022. 1 nodo, 2 Intel® Xeon® CPU serie Max, HT activado, turbo desactivado, memoria total de HBM y 1TB de 128 GB (16 ranuras/ 64 GB/4800 MHz, DDR5), modo de clúster: SNC4, BIOS EGSDCRB1.86B.0080.D05.2205081330, ucode 0x8f000320, flujo de OS CentOS 8, kernel 5.18.0-0523.intel_next.1.x86_64+servidor, compilador gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10, https://github.com/mlcommons/hpc/tree/main/deepcam, resalte1.11.0a0+git13cdb98, AVX-512, FP32, 1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5, Python3.8.

  • NVIDIA A100 de 80 GB: Pruebas realizadas por Intel al 13/04/2022. 1 nodo, dos Intel® Xeon® escalable 8360Y, HT activado, turbo activado, memoria total de 256 GB (16 ranuras/ 16 GB/ 3200 MHz), PCIe NVIDIA A100 de 80 GB, BIOS AMI 1.1b, ucode 0xd000311, OS Red Hat Enterprise Linux 8.4 (Ootpa), kernel 4.18.0-305.el8.x86_64, compilador gcc (GCC) 20200928 8.4.1 (Red Hat 8.4.1-1), https://github.com/mlcommons/hpc/tree/main/deepcam, pytorch1.11.0 py3.7_cuda11.3_cudnn8.2.0_0, cudnn 8.2.1, cuda11.3_0, h06a4308_3633 intel-openmp 2022.0.1, python3.7.

  • Intel® Xeon® serie CPU Max (modo caché) BF16/AMX: Prueba realizada por Intel el 25 de enero de 2022. 1 nodo, dos Intel® Xeon® CPU serie Max, HT activado, turbo desactivado, memoria total de 128 GB HBM y 1 TB (16 ranuras/ 64 GB/ 4800 MHz, DDR5), modo de clúster: SNC4, BIOS EGSDCRB1.86B.0080.D05.2205081330, 0x8f000320 ucode, Flujo de SO CentOS 8, kernel 5.18.0-0523.intel_next.1.x86_64+servidor, compilador gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10), https://github.com/mlcommons/hpc/tree/main/deepcam 20210514, 1.11.0a0+git13cdb98, AVX-512 FP32, 1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512, AMX, BFloat16 activado), Intel MPI 2021.5, Python3.8.

  • Clúster mulit-node de procesadores escalables de 4ª generación Intel® Xeon®: prueba realizada por Intel a partir del 04/09/2022. Clúster de 16 nodos, 1 nodo, procesador escalable Intel® Xeon® de 4ª generación, HT activado, turbo activado, memoria total de 256 GB (16 ranuras/ 16 GB/ 4800 MHz, DDR5), BIOS Intel SE5C6301.86B.6712.D23.2111241351, ucode 0x8d000360, OS Red Hat Enterprise Linux 8.4 (Ootpa), kernel 4.18.0-305.el8.x86_64, compilador gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1), https://github.com/mlcommons/hpc/tree/main/deepcam, 1.11.0a0+ git13cdb98 AVX-512, FP32, 1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5, Python3.8.

3 LAMMPS

  • Intel® Xeon® SERIE MAX de CPU tiene un desempeño LAMMPS (geomean de fluido atómico, cobre, DPD, Liquid_crystal, torticero, desamor, morfioso, stillinger-Weber, Tersoff, agua) en comparación con AMD EPYC 7773X.

  • Intel® Xeon® SERIE MAX de CPU tiene un desempeño LAMMPS (geomean de fluido atómico, cobre, DPD, Liquid_crystal, torticero, torticero, weber stillinger, Tersoff, agua) en comparación con Intel® Xeon® 8380 Intel® Xeon® 8380: prueba realizada por Intel a partir del 11/01/2022. 1 nodo, Dos Intel® Xeon® CPU 8380, HT activado, turbo activado, configuración de NUMA SNC2, memoria total de 256 GB (16 x 16 GB 3200MT/s, doble rango), versión DE BIOS SE5C620.86B.01.01.0006.2207150335, revisión de ucode = 0xd000375, Linux 8.6, Linux versión 4.18.0-372.26.1.el8_6.crt1.x86_64, LAMMPS v2021-09-29 cmkl:6 2022.1.0, creo: 2021.6.0, impi:2021.6.0, tbb:2021.6.0; subprocesos/núcleo:; Turbo:activado; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high;

  • AMD EPYC 7773X: Prueba realizada por Intel a partir del 6 de este mes de 2022. 1 nodo, 2 AMD EPYC, HT activado, turbo activado, configuración de NUMA, 4, memoria total de 256 GB (16 x 16 GB 3200MT/s, clasificación dual), versión de BIOS M10, revisión de ucode = 0xa001224, Linux 8.6 de Linux, Linux versión 4.18.0-372.26.1.el8_6.crt1.x86_64, LAMMPS v2021-09-29 cmkl:2022.1.0,kl:2021.6.0, impi:2021.6.0, tbb:2021.6.0; subprocesos/núcleo:; Turbo:activado; BuildKnobs:-O3 -ip -g -debug inline-debug-info -axCORE-AVX2 -march=core-avx2;

  • Intel® Xeon® serie CPU Max: Prueba realizada por Intel al 31/08/2022. 1 nodo, dos Intel® Xeon® CPU serie Max, HT ACTIVADO, Turbo ACTIVADO, configuración NUMA SNC4, memoria total de 128 GB (HBM2e a 3200 MHz), versión de BIOS SE5C7411.86B.8424.D03.2208100444, revisión de ucode = 0x2c000020, CentOS Stream 8, Linux versión 5.19.0-rc6.0712.intel_next.1.x86_64+servidor, LAMMPS v2021-09-29 cmkl:2022.1.0, xf:2021.6.0, impi:2021.6.0, tbb:2021.6.0; subprocesos/núcleo:; Turbo:desactivado; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high.

4 Informe 22.1 de la Encuesta de desarrollo global de Datos de 2022, junio del 2022

El desempeño varía según el uso, la configuración y otros factores. Más información en www.Intel.com/PerformanceIndex. Los resultados pueden variar.

Los resultados de desempeño se basan en pruebas realizadas a las fechas que se indican en las configuraciones y es posible que no reflejen todas las actualizaciones que están a disposición del público.

Intel no controla ni audita los datos de terceros. Le recomendamos consultar otras fuentes para evaluar la exactitud.