Flujo de trabajo principal de la ciencia de datos
Estas estaciones de trabajo especialmente diseñadas combinan una gran capacidad de memoria, muchas ranuras de expansión para conectar varios dispositivos y CPUS cuidadosamente diseñadas para satisfacer las demandas únicas de los científicos de datos que trabajan en Python y los analistas de datos como usted.
Estación de trabajo para la ciencia de datos: superpoderes incluidos
Como científico de datos, quizás pase la mayor parte del tiempo ordenando conjuntos de datos medianos y grandes en algoritmos y bibliotecas de Python con un uso intensivo de CPU; esto pone a la mayoría de las estaciones de trabajo de rodillas.
Eso se debe a que la estación de trabajo probablemente esté construida casi exclusivamente para el entrenamiento de modelos, pero no tenga los recursos necesarios para la transformación de datos que requiere mucha memoria.
Evite los errores de memoria al intentar cargar y explorar datos, una experiencia común cuando las funciones de Pandas requieren más memoria de la que tiene disponible la máquina o la instancia.
Cómputo de NumPy/SciPy más rápido que la generación anterior
El álgebra lineal es la base de la ciencia numérica y de datos. Las herramientas informáticas numéricas que proporcionan NumPy y SciPy permiten que el científico de datos trabaje en análisis numéricos, funciones y en una variedad de modelos de aprendizaje automático y fórmulas matemáticas. iBench es un análisis de referencia que prueba los comandos de estrés en el álgebra lineal de los algoritmos comunes que se usan en NumPy y SciPy, como dot, det, inv, lu, qr y svd. El desempeño se mide en segundos (más bajo es mejor) En comparación con el Xeon®-W3275 de 3ᵃ Generación, el Xeon®-W3495X de 4ᵃ Generación se desempeñó entre un 25 % y un 75 % más rápido en las pruebas más recientes de iBench.1
Ciencia de datos superpotenciada
Diseñamos las estaciones de trabajo para la ciencia de datos equipadas con Intel® para que los flujos de trabajo de aprendizaje automático y de IA con uso intensivo de datos sean rápidos, fluidos y con buena capacidad de respuesta. Estas estaciones de trabajo tienen hasta 8 TB de memoria en los sistemas de doble zócalo y CPUs adaptadas a las cargas de trabajo, además pueden ejecutar conjuntos de datos medianos y grandes en la memoria y realizar en menos horas las tareas que más tiempo consumen en el desarrollo de la IA.
Estaciones de trabajo equipadas con intel® recomendadas para la ciencia de datos
Las estaciones de trabajo para la ciencia de datos equipadas con intel® vienen en tres plataformas: móviles, de uso general y para expertos, y cuentan con una gama de CPUs, capacidades de memoria y ranuras de expansión de PCIe.
Plataformas móviles para la ciencia de datos para conjuntos de datos de 32 GB a 64 GB
Desempeño destacable para el desarrollo de la IA móvil y la visualización de datos.
- Intel® Core™ serie HX hasta con 24 núcleos (8 P + 16 E).
- DRAM DDR5 de 128 GB para todas las plataformas.
- SKUs recomendadas:
- i9-13950HX (24 núcleos)
- i7-13850HX (20 núcleos)
Plataformas de uso general para la ciencia de datos para conjuntos de datos de 64 GB a 512 GB
Excelente desempeño por precio para el preprocesamiento y el análisis de conjuntos de datos de tamaño mediano.
- Procesadores Intel® Xeon® W-2400 hasta con 24 núcleos desbloqueados.
- Hasta 2 TB de RIDMM DDR5.
- SKUs recomendadas:
- W7-2495X (24 núcleos)
- W5-2465X (16 núcleos)
Plataformas para expertos en ciencia de datos con DDR5 de hasta 8 TB para plataformas de doble zócalo
Desempeño máximo para lidiar con grandes conjuntos de datos, aprendizaje automático y análisis de datos.
- Procesadores Intel® Xeon® W-3400 hasta con 56 núcleos.
- RIDMM DDR5 hasta de 4 TB para la serie W-3400 y DDR5 hasta de 8 TB para las plataformas de doble zócalo Xeon® SP de 4ᵃ Generación.
- SKUs recomendadas para plataformas de un solo zócalo:
- W9-3475X (36 núcleos)
- W7-3455 (24 núcleos)
- W5-3425X (16 núcleos)
- SKUs recomendadas para plataformas de doble zócalo:
- 6448Y (32 núcleos)
- 6442Y (24 núcleos)
- 6444Y (16 núcleos)
Elija su estación de trabajo para la ciencia de datos equipada con intel®
Las estaciones de trabajo para la ciencia de datos equipadas con Intel® se ofrecen en varias configuraciones y en una gama de precios de los fabricantes y socios de Intel®.
Vaya más rápido con Intel® oneAPI AI Analytics Toolkit
Optimizamos las herramientas más populares en el ecosistema de Python para las arquitecturas de Intel® y las agrupamos en Intel® oneAPI AI Analytics Toolkit para que le sea fácil crear un entorno para la ciencia de datos y aumentar el desempeño de estas herramientas. Estas optimizaciones inmediatas están listas para ejecutarse para que pueda trabajar más rápido con pocos o ningún cambio de codificación.
Preguntas frecuentes
Hay dos factores principales a considerar cuando tenga que elegir una estación de trabajo para la ciencia de datos: las herramientas y técnicas que más usa y el tamaño de los conjuntos de datos.
Cuando se trata de marcos para la ciencia de datos, tener un mayor número de núcleos no siempre implica un mejor desempeño. NumPy, SciPy y scikit-learn no se escalan bien cuando superan los 18 núcleos. Por otro lado, HEAVY.AI (anteriormente OmniSci) tomará todos los núcleos que pueda.
Todas las estaciones de trabajo que cuentan con Intel® usan los procesadores escalables Intel® Xeon®, Intel® Xeon® W e Intel® Core™ que sobresalen lidiando con las cargas de trabajo de la ciencia de datos en las pruebas reales. Todos ellos brindarán el mejor desempeño de la familia de procesadores, lo que hace que la capacidad de memoria sea la opción más importante.
Los marcos de la ciencia de datos hacen crecer el volumen de la memoria de 2 a 3 veces. Para saber cuánto necesita de memoria como línea base, examine los conjuntos de datos típicos y multiplíquelos por tres. Si puede trabajar con 512 GB o menos, puede obtener un excelente desempeño en una máquina de desktop. Si los conjuntos de datos suelen ser superiores a 500 GB, necesitará una torre con 1,5 TB de memoria o más.
Los aceleradores de GPU se destacan en el entrenamiento de modelos de aprendizaje profundo y la inferencia de aprendizaje profundo a gran escala. Sin embargo, para la mayor parte del trabajo en la ciencia de datos (preparación de datos, análisis y aprendizaje automático clásico), esas GPUs quedan inactivas porque la mayoría de las bibliotecas de Python para la ciencia de datos se ejecutan de forma nativa en la CPU. Necesita un adaptador de gráficos para manejar las pantallas, pero no un dispositivo de GPU.
La nube no le dará el mejor desempeño a menos que esté ejecutándose en una máquina virtual independiente o un servidor sin software instalado Las instancias de la nube se presentan como un solo nodo, pero en el back-end todo está muy distribuido. La carga de trabajo y los datos se dividen en varios servidores en varias ubicaciones. Esto genera latencias en la memoria y en el procesamiento que degradan el tiempo de ejecución. Además, trabajar con grandes conjuntos de datos y gráficos a través de un escritorio remoto no es una experiencia ideal.
Mantener la carga de trabajo y los datos en una ubicación local, en una sola máquina, puede ofrecer un desempeño mucho mejor y una experiencia de trabajo más fluida y brindarle mayor capacidad de respuesta.
Puede hacerlo, pero desperdiciará una gran cantidad de tiempo mirando cómo los datos van y vienen entre el almacenamiento, la memoria y la CPU. Si está trabajando en un entorno profesional, puede ahorrar tiempo actualizando a un equipo de desktop de rango medio o una laptop de Intel® para la ciencia de datos. Probamos y especificamos intencionalmente las laptops equipadas con Intel® Core™ para la ciencia de datos para que los estudiantes, principiantes y productores de IA puedan tener una opción asequible para desarrollar y experimentar con herramientas de IA de código abierto.
Puede ejecutar herramientas basadas en Python para la ciencia de datos más rápidamente en una PC estándar con distribuciones y bibliotecas optimizadas con Intel®. Todas son parte del kit gratuito de IA Intel®.
Avisos y exenciones de responsabilidad
Según se estima en las mediciones realizadas con la plataforma de validación de Intel®, comparando Intel® Xeon® w9-3495X con Intel® Xeon® W-3275 en NumPy/SciPy, Inv, N=25000
Consulte intel.com/performanceindex para obtener más detalles sobre la configuración. Los resultados pueden variar.
Los resultados de desempeño se basan en pruebas realizadas en las fechas indicadas en las configuraciones y es posible que no reflejen todas las actualizaciones públicamente disponibles. Consulte las copias de seguridad para conocer los detalles de la configuración. Obtenga más información en intel.com/PerformanceIndex.
La aceleración de TensorFlow, scikit-learn y Pandas se logró usando Intel® Distribution de Modin. Para obtener más detalles, consulte intel.com/content/www/xl/es/developer/articles/technical/code-changes-boost-pandas-scikit-learn-tensorflow.html#gs.mdyh9o.
© Intel Corporation. Intel, el logotipo Intel y otras marcas Intel son marcas comerciales de Intel Corporation o sus filiales. Otros nombres y marcas podrían ser reclamados como propiedad de terceros.