¿Qué es Big Data?

Big data es un gran conjunto de datos no estructurados y de alta velocidad; el tipo de datos creados por las plataformas de redes sociales, obtenidos por buscadores y analizados para predecir todo, desde el clima de mañana hasta los temas de tendencias actuales.

Puntos clave sobre Big Data

  • Big data es un conjunto de datos no estructurados y creados a escala de exabytes por sitios de redes sociales, transacciones financieras y el propio Internet.

  • Big data es demasiado vasto para estructurarlo en bases de datos relacionales y tradicionales. Se necesita el aprendizaje automático y la IA para descubrir patrones y extraer información.

  • La Small data es a menudo más accesible, más estructurada y requiere menos esfuerzo para analizar, lo que la hace igualmente valiosa, si no más.

author-image

Por

¿Qué es Big Data?

Big data es un concepto que describe el flujo de datos no estructurados creados por todo, desde las publicaciones en redes sociales y el tráfico de red hasta el Internet de las cosas (IoT), las cámaras de seguridad públicas y los datos meteorológicos globales. A diferencia de los small data, que se pueden estructurar, almacenar y analizar en una base de datos relacional, los big data superan la capacidad de las tablas, filas y columnas en complejidad y procesamiento.

Small data y big data se encuentran en un espectro. Usted puede saber que entró en el ámbito de big data cuando ve un volumen, una velocidad y una variedad de datos extremos.

Volumen de Big Data

Como puede haber deducido, big data es grande. De hecho, enorme. Los conjuntos de Big Data superan fácilmente un petabyte (1000 terabytes) y pueden alcanzar los exabytes (1000 petabytes). Los conjuntos de datos de este tamaño superan la comprensión humana y la capacidad informática tradicional. Darle sentido a big data, es decir, identificar patrones significativos, extraer información y ponerla en funcionamiento, requiere del aprendizaje automático, la IA y una potencia informática seria.

Velocidad de Big Data

Big data no llega en un informe de gastos diario ni en una transacción de datos mensual. Big data se produce en tiempo real en volúmenes extremadamente altos. Por ejemplo: Google recibe, en promedio, más de 40.000 búsquedas por segundo,1 las analiza, las responde y ofrece publicidad basada en el análisis para cada una de las búsquedas. Esa es la velocidad de big data.

Variedad de Big Data

Además de presentarse en petabytes por segundo, big data se presenta en todos los tipos, formatos y formas de datos concebibles. Big data incluye imágenes, video, audio y texto. Big data se puede estructurar, como los datos del censo, o puede no estar estructurado, como las imágenes de las publicaciones de redes sociales.

Big data puede provenir de publicaciones de video, de los sensores de una fábrica o de todos los teléfonos celulares con una app específica.

¿Por qué es Importante Big Data?

Big data es importante porque su análisis desbloquea información y perspectivas que van más allá de la percepción humana y de la capacidad del análisis de bases de datos tradicional.

Por ejemplo, una persona puede mirar un termómetro y decidir si debe usar un gorro. Una base de datos puede contener una década de temperaturas diarias, hacer referencias cruzadas de las temperaturas con las ventas de gorros y, luego, proyectar cuántos gorros debe pedir un minorista para octubre, a comparación de noviembre.

El análisis de Big data puede revisar las selfies a medida que se publican en las redes sociales; identificar gorros, sus materiales y sus estilos; y, luego, recomendar qué gorros están en tendencia, además de analizar los patrones climáticos globales y predecir la probabilidad de nevadas.

Casos de Uso de Big Data

Detección de Fraude

Los bancos, las compañías de tarjetas de crédito, los minoristas, los procesadores de pagos y los reguladores usan el análisis de big data para analizar los datos de las transacciones en tiempo real para detectar signos de actividad fraudulenta. Los algoritmos de aprendizaje automático pueden detectar patrones sospechosos, congelar cuentas y notificar a los clientes que su cuenta puede haber sido comprometida. Por ejemplo, PayPal usa el análisis de big data para mejorar la precisión y disminuir el tiempo de la detección de fraudes.

Analítica Predictiva

Las cámaras de video, los micrófonos y otros sensores pueden supervisar prácticamente cualquier máquina, como un motor de reacción, un equipo de fábrica, un automóvil, y capturar datos sobre su desempeño, su movimiento y su entorno. Cuando se combinan con el aprendizaje automático y la IA, estos datos no estructurados se pueden utilizar para identificar signos de desgaste tempranos, detectar fallas antes de que el equipo falle y, en el caso de los sistemas de seguridad de los automóviles, intervenir de forma activa para prevenir accidentes.

Análisis espacial y seguridad pública

El aprendizaje automático se usa en grandes entornos públicos, como los centros comerciales, los estadios y las instalaciones de tránsito, para extraer información en tiempo real de los videos de seguridad. Estos sistemas de análisis de big data usan la IA de visión artificial para analizar el tráfico peatonal, identificar embotellamientos y detectar situaciones peligrosas. La información resultante se puede usar para comprender el desempeño de los minoristas, cambiar al personal para asista a las áreas de alta demanda o alertar a los que primero intervienen en casos de emergencia si la seguridad pública está amenazada. La Autoridad de Tránsito de Chicago usa big data y el aprendizaje automático para que la experiencia del transporte público sea más rápida, fluida y segura.

Desempeño de la Red

El desempeño de las redes de telecomunicaciones, inalámbricas y de informática es un caso de uso de big data ideal. Cada paquete que atraviesa la red produce datos de desempeño en tiempo real que pueden ser analizados por sistemas automatizados que pueden acelerar los recursos de red adicionales y optimizar el desempeño. A largo plazo, la información de big data puede ayudar a los creadores de redes a identificar nuevas necesidades de infraestructura y priorizar las inversiones.

Sentimiento y Conciencia

Los especialistas en marketing y los encuestadores usan el análisis de big data para supervisar las publicaciones en línea disponibles para el público en las redes sociales, los foros y las reseñas para identificar tendencias, los temas candentes y la opinión del público. Por supuesto, las empresas de redes sociales usan un análisis de big data aún más sofisticado para producir percepciones demográficas y de sentimientos más precisas.

¿Qué es Small Data?

Small data (Microdatos) son datos que pueden ser estructurados y administrados por una base de datos relacional, como cualquiera de los tipos de SQL, Oracle DB, Microsoft Access o una hoja de cálculo básica. Sin embargo, no se deje engañar por la palabra “small” (micro) en small data. Small data se presenta en volúmenes de gigabytes a terabytes. La información tal como el inventario, las transacciones, los registros de clientes, el historial de pedidos y el desempeño de las ventas son ejemplos de small data.

¿Por qué es Importante Small Data?

Small data tiene un gran valor empresarial. Las empresas de miles de millones de dólares pueden extraer la mayor parte de su información empresarial de los "pequeños" datos estructurados que recopilan a través de sus operaciones. Una base de datos tradicional bien diseñada puede proporcionar servicios de transmisión en línea en tiempo real para transacciones dinámicas, como las recomendaciones de los carritos de la compra, los paneles de control en tiempo real y las transacciones financieras.

Casos de uso de Small Data

Bienestar de los Pacientes

Mientras que big data puede ayudar a los sistemas de atención médica a detectar errores de facturación, fraudes e ineficiencias, small data puede ayudar a cuantificar el progreso de los pacientes individuales, la eficacia de los medicamentos y el cumplimiento de los planes de tratamiento.

Operaciones Empresariales y Eficiencia

Cualquier industria que produzca datos de transacciones y eventos, como las industrias del turismo y de la hospitalidad, puede extraer información a través del uso de bases de datos estándar y del análisis de small data. No necesitas las técnicas de big data ni la IA para analizar las salidas puntuales, los tiempos de rotación de las mesas o las tasas de vacantes. El análisis de small data en estas industrias puede impulsar las aplicaciones que mantienen a los viajeros actualizados sobre el estado de sus vuelos, ayudan a los comensales a hacer las reservas y les permiten saber a los huéspedes cuándo están listas sus habitaciones.

Cadena de Suministro y Logística

Desde la llegada de los códigos de barras, el reconocimiento óptico de caracteres (OCR) y la identificación por radiofrecuencia (RFID), las cadenas de suministro y los servicios de entrega han producido datos constantes sobre la ubicación, los movimientos y el estado de los artículos. Todo esto es small data, aunque el volumen y la velocidad pueden llegar a terreno de big data para las empresas de transporte marítimo global. ¿Por qué? Porque los datos están estructurados y son uniformes. El análisis de Small Data en la logística puede alimentar las máquinas de clasificación automatizadas, enviar paquetes al destino correcto y mantener a los destinatarios informados sobre el progreso de sus pedidos.

Ventas y Gestión de las Relaciones con los Clientes (CRM)

Las bases de datos de ventas y CRM son excelentes ejemplos de análisis de small data en funcionamiento. Los datos son relativamente homogéneos y estructurados, pero aún así pueden producir información empresarial importante. ¿Los pedidos aumentan cuando los vendedores llaman a los clientes con más frecuencia? ¿Qué vendedores cierran más negocios? ¿Qué clientes producen mayores márgenes? Las respuestas están en los small data producidos por cada actividad del calendario y las transacciones de ventas, más los perfiles de clientes y empleados.

Big Data vs. Small Data

Esta tabla de comparación ofrece una referencia rápida sobre las diferencias clave entre small y big data, y ejemplos de cómo se podría aplicar cada uno de ellos en casos de uso similares.

Trabajar con Big y Small Data

Big data y small data presentan desafíos únicos. Muchos de los problemas que surgen para aprovechar al máximo los datos (capturarlos con precisión, limpiarlos y estructurarlos en formularios compatibles con las bases de datos, además de hacer las preguntas adecuadas de la forma adecuada) son problemas de small data. Los mismos procesos básicos que definen la introducción de los datos en una hoja de cálculo y su uso se aplican a la mayor parte del análisis de datos.

Estructurar y analizar los conjuntos de big data está más allá de la capacidad del humano y de las herramientas informáticas definidas por él, como las bases de datos. El volumen, la variedad y la velocidad de big data requieren que el aprendizaje automático simplemente lo analice y lo comprenda. Esto reduce la cantidad de trabajo humano experto y disminuye la complejidad del almacenamiento de datos. Big data no necesita los almacenes de datos altamente estructurados que se usan en small data. Puede existir en lagos de datos planos, amplios y no estructurados.

Pero los lagos de datos pueden ser inmensos y el análisis de big data requiere potentes recursos informáticos. Big data puede requerir menos capital humano; sin embargo, almacenar exabytes de datos y operar sistemas informáticos distribuidos es costoso, ya sea en las instalaciones o en la nube.

Soluciones y Recursos de Big Data

Intel admite el procesamiento de big data y small data con hardware, software y kits de herramientas para desarrolladores. Intel trabaja en estrecha colaboración con SAP, Microsoft, Oracle y las comunidades de código abierto para asegurarse de que sus productos de bases de datos y los servicios de big data estén optimizados para los procesadores Intel® Xeon®. Intel también ofrece distribuciones optimizadas de aplicaciones y herramientas de big data de código abierto, junto con herramientas de ciencia de datos para small data.

SAP e Intel

SAP e Intel trabajan juntos para brindar informática en la memoria y el máximo desempeño en las instalaciones, en la nube pública y en entornos híbridos.

Más información

Microsoft e Intel

Intel y Microsoft se aseguran de que las soluciones de bases de datos de código abierto y de terceros y big data aprovechen al máximo los servicios de Azure Cloud Services y que SQL Server se optimice continuamente para el hardware Intel® más reciente.

Más información

Oracle e Intel

Oracle e Intel se asociaron en Oracle Cloud Services y Oracle Database y Exadata, más el módulo de aprendizaje automático de Oracle, para garantizar que los productos de Oracle aprovechen las tecnologías de seguridad, desempeño y aceleración de Intel® más recientes.

Más información

Tecnología Intel® CoFluent™

La tecnología Intel® CoFluent™ es una herramienta de simulación para modelar y optimizar las redes y los clústeres informáticos de big data.

Descubra cómo funciona Intel® CoFluent™

Intel® oneAPI Base Toolkit

Intel® oneAPI es un kit de herramientas de desarrollo de arquitecturas diversas que simplifica el desarrollo de arquitecturas de hardware mixtas. El kit de herramientas base incluye la biblioteca de análisis de datos Intel® oneAPI.

Más información

Intel® oneAPI HPC Toolkit

El kit de herramientas de HPC ayuda a los desarrolladores a crear, analizar y hacer a escala aplicaciones en sistemas informáticos de memoria compartida y distribuida.

Más información

Intel® AI Analytics Toolkit

Este kit de herramientas ayuda a acelerar los canales de la ciencia de datos de código abierto y el aprendizaje automático. Incluye distribuciones y optimizaciones Intel® para Python, TensorFlow y PyTorch.

Más información

Espere Grandes Cosas de Big Data

Si el pasado reciente es un precedente, big data continuará creciendo en volumen, velocidad y variedad. Al mismo tiempo, el aumento de la potencia informática y la capacidad de almacenamiento probablemente reduzca los costos y desbloquee más información de más datos.

Este círculo virtuoso hará que los beneficios del análisis de big data sean más accesibles para más empresas (y más personas) que nunca. Espere avances en la medicina y la ciencia, la economía y las finanzas, e incluso en los juegos y el entretenimiento a medida que se descubren patrones, significados y valores en el big data que es la vida cotidiana.

Preguntas frecuentes

Preguntas frecuentes

Big data es un conjunto de datos de gran volumen y gran velocidad que llegan en tiempo real en una amplia variedad de tipos de archivos. Puede incluir registros de texto, sonido, imágenes y video. Por lo general, big data está asociado con los sitios de redes sociales que procesan millones de publicaciones, imágenes y videos al día. Sin embargo, big data puede incluir todo, desde datos meteorológicos hasta videos del tráfico en las autopistas.

Los elementos clave que distinguen a big data son el volumen de datos (petabytes a exabytes) y la variedad no estructurada de la información. El análisis de big data supera la capacidad de las bases de datos relacionales. Desbloquear información útil de big data requiere una informática en paralelo o distribuida, un aprendizaje automático y la IA.

Big data puede contener información importante, valor empresarial e información crítica. Sin embargo, esta información está oculta en la pura magnitud y el ruido de los conjuntos de datos. Darle sentido a big data y usarla, es decir, identificar patrones significativos, extraer información y ponerla en funcionamiento, requiere del aprendizaje automático, la IA y una potencia informática seria.

Lo opuesto a big data es la ausencia de datos; sin embargo, cuando se habla de datos en términos de escala, se suele hacer una comparación entre small data y big data. Small data y big data son diferentes, pero no son exactamente opuestos. Small data está estructurado, tiene velocidades más bajas y se puede analizar con una base de datos tradicional. Big data no está estructurado, viene en grandes flujos de petabytes y simplemente no cabe en una base de datos, ya que excede la capacidad de las tablas, filas y columnas en términos de complejidad y procesamiento.