¿Qué es Big Data?
Big data es un concepto que describe el flujo de datos no estructurados creados por todo, desde las publicaciones en redes sociales y el tráfico de red hasta el Internet de las cosas (IoT), las cámaras de seguridad públicas y los datos meteorológicos globales. A diferencia de los small data, que se pueden estructurar, almacenar y analizar en una base de datos relacional, los big data superan la capacidad de las tablas, filas y columnas en complejidad y procesamiento.
Small data y big data se encuentran en un espectro. Usted puede saber que entró en el ámbito de big data cuando ve un volumen, una velocidad y una variedad de datos extremos.
Volumen de Big Data
Como puede haber deducido, big data es grande. De hecho, enorme. Los conjuntos de Big Data superan fácilmente un petabyte (1000 terabytes) y pueden alcanzar los exabytes (1000 petabytes). Los conjuntos de datos de este tamaño superan la comprensión humana y la capacidad informática tradicional. Darle sentido a big data, es decir, identificar patrones significativos, extraer información y ponerla en funcionamiento, requiere del aprendizaje automático, la IA y una potencia informática seria.
Velocidad de Big Data
Big data no llega en un informe de gastos diario ni en una transacción de datos mensual. Big data se produce en tiempo real en volúmenes extremadamente altos. Por ejemplo: Google recibe, en promedio, más de 40.000 búsquedas por segundo,1 las analiza, las responde y ofrece publicidad basada en el análisis para cada una de las búsquedas. Esa es la velocidad de big data.
Variedad de Big Data
Además de presentarse en petabytes por segundo, big data se presenta en todos los tipos, formatos y formas de datos concebibles. Big data incluye imágenes, video, audio y texto. Big data se puede estructurar, como los datos del censo, o puede no estar estructurado, como las imágenes de las publicaciones de redes sociales.
Big data puede provenir de publicaciones de video, de los sensores de una fábrica o de todos los teléfonos celulares con una app específica.
¿Por qué es Importante Big Data?
Big data es importante porque su análisis desbloquea información y perspectivas que van más allá de la percepción humana y de la capacidad del análisis de bases de datos tradicional.
Por ejemplo, una persona puede mirar un termómetro y decidir si debe usar un gorro. Una base de datos puede contener una década de temperaturas diarias, hacer referencias cruzadas de las temperaturas con las ventas de gorros y, luego, proyectar cuántos gorros debe pedir un minorista para octubre, a comparación de noviembre.
El análisis de Big data puede revisar las selfies a medida que se publican en las redes sociales; identificar gorros, sus materiales y sus estilos; y, luego, recomendar qué gorros están en tendencia, además de analizar los patrones climáticos globales y predecir la probabilidad de nevadas.
Casos de Uso de Big Data
Detección de Fraude
Los bancos, las compañías de tarjetas de crédito, los minoristas, los procesadores de pagos y los reguladores usan el análisis de big data para analizar los datos de las transacciones en tiempo real para detectar signos de actividad fraudulenta. Los algoritmos de aprendizaje automático pueden detectar patrones sospechosos, congelar cuentas y notificar a los clientes que su cuenta puede haber sido comprometida. Por ejemplo, PayPal usa el análisis de big data para mejorar la precisión y disminuir el tiempo de la detección de fraudes.
Analítica Predictiva
Las cámaras de video, los micrófonos y otros sensores pueden supervisar prácticamente cualquier máquina, como un motor de reacción, un equipo de fábrica, un automóvil, y capturar datos sobre su desempeño, su movimiento y su entorno. Cuando se combinan con el aprendizaje automático y la IA, estos datos no estructurados se pueden utilizar para identificar signos de desgaste tempranos, detectar fallas antes de que el equipo falle y, en el caso de los sistemas de seguridad de los automóviles, intervenir de forma activa para prevenir accidentes.
Análisis espacial y seguridad pública
El aprendizaje automático se usa en grandes entornos públicos, como los centros comerciales, los estadios y las instalaciones de tránsito, para extraer información en tiempo real de los videos de seguridad. Estos sistemas de análisis de big data usan la IA de visión artificial para analizar el tráfico peatonal, identificar embotellamientos y detectar situaciones peligrosas. La información resultante se puede usar para comprender el desempeño de los minoristas, cambiar al personal para asista a las áreas de alta demanda o alertar a los que primero intervienen en casos de emergencia si la seguridad pública está amenazada. La Autoridad de Tránsito de Chicago usa big data y el aprendizaje automático para que la experiencia del transporte público sea más rápida, fluida y segura.
Desempeño de la Red
El desempeño de las redes de telecomunicaciones, inalámbricas y de informática es un caso de uso de big data ideal. Cada paquete que atraviesa la red produce datos de desempeño en tiempo real que pueden ser analizados por sistemas automatizados que pueden acelerar los recursos de red adicionales y optimizar el desempeño. A largo plazo, la información de big data puede ayudar a los creadores de redes a identificar nuevas necesidades de infraestructura y priorizar las inversiones.
Sentimiento y Conciencia
Los especialistas en marketing y los encuestadores usan el análisis de big data para supervisar las publicaciones en línea disponibles para el público en las redes sociales, los foros y las reseñas para identificar tendencias, los temas candentes y la opinión del público. Por supuesto, las empresas de redes sociales usan un análisis de big data aún más sofisticado para producir percepciones demográficas y de sentimientos más precisas.
¿Qué es Small Data?
Small data (Microdatos) son datos que pueden ser estructurados y administrados por una base de datos relacional, como cualquiera de los tipos de SQL, Oracle DB, Microsoft Access o una hoja de cálculo básica. Sin embargo, no se deje engañar por la palabra “small” (micro) en small data. Small data se presenta en volúmenes de gigabytes a terabytes. La información tal como el inventario, las transacciones, los registros de clientes, el historial de pedidos y el desempeño de las ventas son ejemplos de small data.
¿Por qué es Importante Small Data?
Small data tiene un gran valor empresarial. Las empresas de miles de millones de dólares pueden extraer la mayor parte de su información empresarial de los "pequeños" datos estructurados que recopilan a través de sus operaciones. Una base de datos tradicional bien diseñada puede proporcionar servicios de transmisión en línea en tiempo real para transacciones dinámicas, como las recomendaciones de los carritos de la compra, los paneles de control en tiempo real y las transacciones financieras.
Casos de uso de Small Data
Bienestar de los Pacientes
Mientras que big data puede ayudar a los sistemas de atención médica a detectar errores de facturación, fraudes e ineficiencias, small data puede ayudar a cuantificar el progreso de los pacientes individuales, la eficacia de los medicamentos y el cumplimiento de los planes de tratamiento.
Operaciones Empresariales y Eficiencia
Cualquier industria que produzca datos de transacciones y eventos, como las industrias del turismo y de la hospitalidad, puede extraer información a través del uso de bases de datos estándar y del análisis de small data. No necesitas las técnicas de big data ni la IA para analizar las salidas puntuales, los tiempos de rotación de las mesas o las tasas de vacantes. El análisis de small data en estas industrias puede impulsar las aplicaciones que mantienen a los viajeros actualizados sobre el estado de sus vuelos, ayudan a los comensales a hacer las reservas y les permiten saber a los huéspedes cuándo están listas sus habitaciones.
Cadena de Suministro y Logística
Desde la llegada de los códigos de barras, el reconocimiento óptico de caracteres (OCR) y la identificación por radiofrecuencia (RFID), las cadenas de suministro y los servicios de entrega han producido datos constantes sobre la ubicación, los movimientos y el estado de los artículos. Todo esto es small data, aunque el volumen y la velocidad pueden llegar a terreno de big data para las empresas de transporte marítimo global. ¿Por qué? Porque los datos están estructurados y son uniformes. El análisis de Small Data en la logística puede alimentar las máquinas de clasificación automatizadas, enviar paquetes al destino correcto y mantener a los destinatarios informados sobre el progreso de sus pedidos.
Ventas y Gestión de las Relaciones con los Clientes (CRM)
Las bases de datos de ventas y CRM son excelentes ejemplos de análisis de small data en funcionamiento. Los datos son relativamente homogéneos y estructurados, pero aún así pueden producir información empresarial importante. ¿Los pedidos aumentan cuando los vendedores llaman a los clientes con más frecuencia? ¿Qué vendedores cierran más negocios? ¿Qué clientes producen mayores márgenes? Las respuestas están en los small data producidos por cada actividad del calendario y las transacciones de ventas, más los perfiles de clientes y empleados.
Big Data vs. Small Data
Esta tabla de comparación ofrece una referencia rápida sobre las diferencias clave entre small y big data, y ejemplos de cómo se podría aplicar cada uno de ellos en casos de uso similares.
|
Small Data |
Datos a gran escala |
---|---|---|
Volumen de datos |
Gigabytes a terabytes |
Petabytes a exabytes |
Velocidad de datos |
Controlada y constante; recopila a lo largo del tiempo |
Grandes volúmenes a velocidades extremadamente altas |
Variedad de datos |
Baja: Típicamente tabular, datos de texto |
Alta: Datos tabulares, JSON, imágenes, texto, audio, video |
Calidad de los datos |
Alta: Generalmente se recopila de fuentes definidas y controladas |
Impredecible: Proviene de varias fuentes orgánicas |
Limpieza de datos, preparación, optimización |
Procesos manuales y automatizados (programados por humanos) |
Algoritmos de aprendizaje automático, IA |
Estructura de los datos |
A menudo estructurados desde la fuente, almacenados en una base de datos relacional |
Mezcla no estructurada de varios tipos de datos |
Almacenamiento de los datos |
Data mart, almacén de datos, local o en la nube |
Lagos de datos, data fabrics en nubes públicas, híbridas o privadas |
herramientas de análisis de datos |
Bases de datos tradicionales, SQL |
Aprendizaje automático, IA, data fabrics, SQL, Python, R, Java, Apache Spark |
Necesidades informáticas |
Puede variar desde un único servidor hasta requerir recursos en la nube |
Informática en paralelo y distribuida, clústeres, recursos en la nube |
Casos de uso de muestra |
||
|
Small Data |
Datos a gran escala |
General |
Inteligencia empresarial, informes, ventas y CRM, transacciones y decisiones basadas en datos |
Minería de datos, análisis predictivo, reconocimiento de patrones, análisis de sentimientos |
Aerolíneas |
Puntualidad, datos de los vuelos, venta de pasajes, CRM, programas de fidelización |
Percepción de la marca en las redes sociales, mantenimiento de los aviones, eficiencia del combustible, planificación y optimización de las rutas |
Envíos y logística |
Seguimiento de paquetes, clasificación automatizada, selección, embalaje, informes de estado y cumplimiento, eficiencia operativa |
Previsiones, optimización del enrutamiento de paquetes, análisis de video para prevenir pérdidas, seguridad de los trabajadores |
Atención médica |
Progreso de los pacientes individuales, mejora continua de la calidad, eficiencia clínica |
Detección de errores y fraudes, eficiencia en todo el sistema, análisis de tendencias y resultados en la salud a gran escala |
Comercio minorista |
Programas de fidelización de clientes, desempeño de productos, promociones, transacciones inteligentes, prevención de pérdidas |
Detección de tendencias, pronósticos, prevención de fraudes, gestión de inventario y cadena de suministro, marketing |
Finanzas |
Análisis y contabilidad en empresas individuales, análisis de transacciones, información histórica y en tiempo real |
Detección de fraudes, análisis de operaciones de gran volumen, transacciones impulsadas por la IA |
Trabajar con Big y Small Data
Big data y small data presentan desafíos únicos. Muchos de los problemas que surgen para aprovechar al máximo los datos (capturarlos con precisión, limpiarlos y estructurarlos en formularios compatibles con las bases de datos, además de hacer las preguntas adecuadas de la forma adecuada) son problemas de small data. Los mismos procesos básicos que definen la introducción de los datos en una hoja de cálculo y su uso se aplican a la mayor parte del análisis de datos.
Estructurar y analizar los conjuntos de big data está más allá de la capacidad del humano y de las herramientas informáticas definidas por él, como las bases de datos. El volumen, la variedad y la velocidad de big data requieren que el aprendizaje automático simplemente lo analice y lo comprenda. Esto reduce la cantidad de trabajo humano experto y disminuye la complejidad del almacenamiento de datos. Big data no necesita los almacenes de datos altamente estructurados que se usan en small data. Puede existir en lagos de datos planos, amplios y no estructurados.
Pero los lagos de datos pueden ser inmensos y el análisis de big data requiere potentes recursos informáticos. Big data puede requerir menos capital humano; sin embargo, almacenar exabytes de datos y operar sistemas informáticos distribuidos es costoso, ya sea en las instalaciones o en la nube.
Soluciones y Recursos de Big Data
Intel admite el procesamiento de big data y small data con hardware, software y kits de herramientas para desarrolladores. Intel trabaja en estrecha colaboración con SAP, Microsoft, Oracle y las comunidades de código abierto para asegurarse de que sus productos de bases de datos y los servicios de big data estén optimizados para los procesadores Intel® Xeon®. Intel también ofrece distribuciones optimizadas de aplicaciones y herramientas de big data de código abierto, junto con herramientas de ciencia de datos para small data.
SAP e Intel
SAP e Intel trabajan juntos para brindar informática en la memoria y el máximo desempeño en las instalaciones, en la nube pública y en entornos híbridos.
Microsoft e Intel
Intel y Microsoft se aseguran de que las soluciones de bases de datos de código abierto y de terceros y big data aprovechen al máximo los servicios de Azure Cloud Services y que SQL Server se optimice continuamente para el hardware Intel® más reciente.
Oracle e Intel
Oracle e Intel se asociaron en Oracle Cloud Services y Oracle Database y Exadata, más el módulo de aprendizaje automático de Oracle, para garantizar que los productos de Oracle aprovechen las tecnologías de seguridad, desempeño y aceleración de Intel® más recientes.
Tecnología Intel® CoFluent™
La tecnología Intel® CoFluent™ es una herramienta de simulación para modelar y optimizar las redes y los clústeres informáticos de big data.
Descubra cómo funciona Intel® CoFluent™
Intel® oneAPI Base Toolkit
Intel® oneAPI es un kit de herramientas de desarrollo de arquitecturas diversas que simplifica el desarrollo de arquitecturas de hardware mixtas. El kit de herramientas base incluye la biblioteca de análisis de datos Intel® oneAPI.
Intel® oneAPI HPC Toolkit
El kit de herramientas de HPC ayuda a los desarrolladores a crear, analizar y hacer a escala aplicaciones en sistemas informáticos de memoria compartida y distribuida.
Intel® AI Analytics Toolkit
Este kit de herramientas ayuda a acelerar los canales de la ciencia de datos de código abierto y el aprendizaje automático. Incluye distribuciones y optimizaciones Intel® para Python, TensorFlow y PyTorch.
Espere Grandes Cosas de Big Data
Si el pasado reciente es un precedente, big data continuará creciendo en volumen, velocidad y variedad. Al mismo tiempo, el aumento de la potencia informática y la capacidad de almacenamiento probablemente reduzca los costos y desbloquee más información de más datos.
Este círculo virtuoso hará que los beneficios del análisis de big data sean más accesibles para más empresas (y más personas) que nunca. Espere avances en la medicina y la ciencia, la economía y las finanzas, e incluso en los juegos y el entretenimiento a medida que se descubren patrones, significados y valores en el big data que es la vida cotidiana.