Ejecute consultas de Datab preconfiguradas en hasta un 76 % menos de tiempo y reduzca los costos con las instancias de Amazon® R5d que cuentan con procesadores escalables de Intel® Xeon® de 2a Generación

Datab cumbres:

  • Ejecute consultas de compatibilidad con decisiones en hasta un 76 % menos de tiempo con instancias de r5d.2xlarge que cuentan con procesadores escalables de Intel Xeon de 2a Generación con Photon activado.

  • Pase hasta un 51 % menos para ejecutar consultas de compatibilidad con decisiones con instancias r5d.2xlarge que cuenten con procesadores escalables de Intel Xeon de 2a Generación con Photon activado.

author-image

Por

Con el motor de consultas vectorizadas con fotones activado, estas instancias superaron drásticamente a las instancias r5a.2xlarge con procesadores AMD EPYC™ en cargas de trabajo de asistencia para decisiones y entregan un mejor valor.

Muchas organizaciones dependen de la plataforma Lakehouse de Databéters para almacenar y analizar datos, tanto estructurados como no estructurados. Para ejecutar sus consultas de asistencia para decisiones rápidamente, es importante seleccionar instancias de nube respaldadas por hardware potente. Pero determinar qué instancias cumplen con estos criterios puede ser un desafío.

Realizamos pruebas para ayudar a las empresas que están comprando instancias de nube para que sus decisiones admitan cargas de trabajo. Específicamente, analizamos la serie de instancias de AWS: instancias R5d habilitadas por procesadores escalables de Intel® Xeon® de 2da Generación e instancias de R5a con procesadores AMD EPYC. Creamos clústeres Datab runtime 9.0 de estos dos tipos de instancias para ejecutar una carga de trabajo de compatibilidad con decisiones. En el clúster R5d, utilizamos máquinas virtuales que habilitaron un motor de consultas vectorizadas llamado Photon diseñado para mejorar el desempeño de las consultas SQL. Al momento de esta prueba, el motor photon de Databloves no es compatible con las instancias de R5a.

Cargas de trabajo de compatibilidad con decisiones completadas en instancias R5d en menos tiempo

Probamos las dos instancias de AWS con un análisis de desempeño de compatibilidad con decisiones que genera una puntuación más baja y mejor que refleja la cantidad de tiempo necesario para ejecutar un conjunto determinado de consultas. Seleccionar una instancia que toma menos tiempo puede ayudar a su empresa de dos maneras: primero, mediante obtener información valiosa antes y segundo, reducir el tiempo de actividad de la instancia y los costos asociados, lo que puede ayudarlo a gastar menos. Como se muestra en la Figura 1, las instancias de r5d.2xlarge con procesadores escalables de2a Generación Intel Xeon y consultas completadas habilitadas para Photon en un conjunto de datos de 1 TB en un 74 % menos de tiempo que las instancias de r5a.2xlarge con procesadores AMD EPYC lo hicieron. Con un conjunto de datos de 10 TB, el tiempo de realización de consultas del clúster r5d.2xlarge fue un 76 % más corto que el del clúster r5a.2xlarge.

Figura 1. Tiempo de procesamiento relativo para completar un conjunto de consultas de análisis de desempeño en un clúster de instancias r5d.2xlarge habilitado para Photon con procesadores escalables Intel Xeonde 2a Generación y un clúster r5a.2xlarge con procesadores AMD EPYC en conjuntos de datos de 1 TB y 10 TB.

Cómo los tiempos de consulta más cortos pueden ayudarlo a llegar a la conclusión

Como sucede con cualquier recurso en el que su empresa esté invirtiendo, obtener un buen valor para su dólar es una prioridad. Calculamos cuánto le costaría a una empresa realizar las situaciones de prueba que debatimos en la página anterior. Utilizamos el precio por hora para cada instancia, almacenamiento y DBUs de Databponemoss en el momento de las pruebas, junto con los tiempos de la Figura 1 para determinar el precio por TB en las cuatro situaciones. Como se muestra en la Figura 2, una empresa gastaría mucho menos si ejecutase cargas de trabajo de compatibilidad con decisiones en instancias r5d.2xlarge habilitadas para Photon. Para el conjunto de datos de 1 TB, el clúster r5d.2xlarge habilitado por los procesadores escalables de Intel® Xeon® de 2a Generación podría proporcionar un precio/desempeño un 46 % menor que el clúster r5a.2xlarge con procesadores AMD EPYC. Para el conjunto de datos de 10 TB, el clúster r5d.2xlarge habilitado para Photon reduciría los costos de precio/desempeño en un 51 %.

Figura 2. Precio/desempeño normalizados para ejecutar una carga de trabajo de soporte de decisiones en un entorno databloves en instancias de Amazon r5d.2xlarge habilitadas para Photon en comparación con instancias r5a.2xlarge en conjuntos de datos de 1 TB y 10 TB.

Conclusión

Medimos el tiempo para completar un conjunto de consultas Databloves para dos tamaños de conjunto de datos diferentes en instancias de AWS r5d.2xlarge habilitadas para Photon con procesadores escalables de Intel Xeon de 2da Generación e instancias r5a.2xlarge con procesadores AMD EPYC. Las instancias de r5d.2xlarge completaron conjuntos de consultas en hasta un 76 % menos de tiempo. Cuando combinamos estos tiempos con el precio por hora para dos instancias, descubrimos que las instancias r5d.2xlarge costaban menos en ejecutar la misma cantidad de trabajo, lo que supuso un ahorro de costos de hasta el 51 %. Si su empresa desea obtener información procesable antes y reducir los gastos en instancias de AWS, elija instancias r5d.2xlarge habilitadas para Photon que cuenten con procesadores escalables Intel Xeon de 2da Generación.

Aprende más

Para comenzar a ejecutar clústeres Databloves en instancias de Amazon R5d habilitadas para Photon con procesadores escalables de Intel Xeon de 2da Generación, visite https://aws.amazon.com/quickstart/architecture/databricks/.

Para obtener más información sobre el motor de consultas vectorizadas fotizada de Databloves, visite https://databricks.com/product/photon y https://docs.databricks.com/runtime/photon.html.

Para todos los resultados de este informe, utilizamos una carga de trabajo de compatibilidad con decisiones derivada de TPC-DS. Todas las pruebas se realizaron en diciembre de 2021 en la región de AWS us-east-1. Todas las pruebas utilizaron clústeres de 20 nodos con Ubuntu 18.04.1, versión de kernel 5.4.0-1059-AWS, Databcaches 9.0, Apache Spark 3.1.2, Scala 2.12. Ambos tipos de instancias tenían 8 vCPUs y 64 GB de RAM. R5d.2xlarge tenía una SSD NVMe de 300 GB, BW de red de 10 Gbps y almacenamiento BW de 4,750 Mbps. Las instancias r5a.2xlarge tenían un volumen EBS de 250 GB, BW de red de 10 Gbps y bw de almacenamiento de 2880 Mbps.

El contenido de esta página es una combinación de la traducción humana y automática del contenido original en inglés. Este contenido se ofrece únicamente para su comodidad como información general y no debe considerarse completa o precisa. Si hay alguna contradicción entre la versión en inglés de esta página y la traducción, prevalecerá la versión en inglés. Consulte la versión en inglés de esta página.