El Big Data es una colección de datos de gran volumen que crece exponencialmente con el tiempo.

Es un dato con un tamaño y una complejidad tan grandes que ninguna de las herramientas tradicionales de gestión de datos puede almacenarlo o procesarlo de forma eficiente. El Big Data es también un dato pero de gran tamaño.

que es el big data

[scriptless]

Big data: todo el mundo parece hablar de ello, pero ¿qué es realmente el big data? ¿Cómo está cambiando la forma en que los investigadores de empresas, organizaciones sin ánimo de lucro, gobiernos, instituciones y otras organizaciones están aprendiendo sobre el mundo que les rodea? ¿De dónde proceden estos datos, cómo se procesan y cómo se utilizan los resultados? ¿Y por qué el código abierto es tan importante para responder a estas preguntas?

En este breve manual, aprenda todo sobre el big data y lo que significa para el mundo cambiante en el que vivimos.

[lwptoc min=»1″ backgroundColor=»»]

¿Qué es el big data?

No hay una regla fija sobre el tamaño exacto que debe tener una base de datos para que los datos que contiene se consideren «grandes». En cambio, lo que suele definir a los big data es la necesidad de nuevas técnicas y herramientas para poder procesarlos.

Para utilizar los big data, se necesitan programas que abarquen varias máquinas físicas y/o virtuales que trabajen conjuntamente para procesar todos los datos en un tiempo razonable.

Conseguir que los programas de varias máquinas trabajen juntos de forma eficiente para que cada programa sepa qué componentes de los datos debe procesar, y luego ser capaz de juntar los resultados de todas las máquinas para dar sentido a un gran conjunto de datos, requiere técnicas especiales de programación.

Dado que suele ser mucho más rápido para los programas acceder a los datos almacenados localmente en lugar de a través de una red, la distribución de los datos en un clúster y la forma en que esas máquinas están conectadas en red también son consideraciones importantes a la hora de pensar en los problemas de big data.

Características del Big Data

Big data cuentan con las siguientes características:

  • Volumen
  • Variedad
  • Velocidad
  • Variabilidad

Volumen: El propio nombre de Big Data está relacionado con un tamaño que es enorme. El tamaño de los datos desempeña un papel muy importante a la hora de determinar su valor. Además, el hecho de que un dato concreto pueda considerarse realmente un Big Data o no, depende del volumen de datos. Por lo tanto, el «volumen» es una de las características que hay que tener en cuenta cuando se trata de Big Data.

Variedad: El siguiente aspecto de los Big Data es su variedad.

La variedad se refiere a las fuentes heterogéneas y a la naturaleza de los datos, tanto estructurados como no estructurados. En el pasado, las hojas de cálculo y las bases de datos eran las únicas fuentes de datos consideradas por la mayoría de las aplicaciones. Hoy en día, los datos en forma de correos electrónicos, fotos, vídeos, dispositivos de monitorización, PDF, audio, etc. también se tienen en cuenta en las aplicaciones de análisis. Esta variedad de datos no estructurados plantea ciertos problemas de almacenamiento, minería y análisis de datos.

Velocidad: El término «velocidad» se refiere a la velocidad de generación de los datos. La rapidez con la que se generan y procesan los datos para satisfacer la demanda determina el verdadero potencial de los datos.

La velocidad de Big Data se refiere a la velocidad a la que fluyen los datos desde fuentes como los procesos empresariales, los registros de aplicaciones, las redes y los sitios de medios sociales, los sensores, los dispositivos móviles, etc. El flujo de datos es masivo y continuo.

Variabilidad: Se refiere a la incoherencia que pueden mostrar los datos en ocasiones, dificultando así el proceso de poder manejar y gestionar los datos de forma eficaz.

¿Qué tipo de conjuntos de datos se consideran big data?

Los usos de los big data son casi tan variados como grandes. Algunos ejemplos destacados con los que probablemente ya esté familiarizado son:

  • Las redes sociales que analizan los datos de sus miembros para saber más sobre ellos y conectarlos con contenidos y publicidad relevantes para sus intereses
  • Los motores de búsqueda que analizan la relación entre las consultas y los resultados para dar mejores respuestas a las preguntas de los usuarios.

Pero los usos potenciales van mucho más allá. Dos de las mayores fuentes de datos en grandes cantidades son los datos transaccionales, que incluyen desde los precios de las acciones hasta los datos bancarios o los historiales de compra de los comerciantes individuales; y los datos de los sensores, muchos de los cuales proceden de lo que se conoce comúnmente como el Internet de las cosas (IoT).

Estos datos de los sensores pueden ser cualquier cosa, desde las mediciones realizadas por los robots en la línea de fabricación de un fabricante de automóviles, a los datos de localización en una red de telefonía móvil, a los datos de uso eléctrico instantáneo en los hogares y las empresas, a la información de embarque de pasajeros tomada en un sistema de transporte.

Al analizar estos datos, las organizaciones pueden conocer las tendencias de los datos que están midiendo, así como de las personas que los generan. La esperanza de este análisis de big data es proporcionar un servicio más personalizado y una mayor eficiencia en cualquier sector del que se recojan los datos.

¿Cómo se analizan los big data?

Uno de los métodos más conocidos para convertir los datos en bruto en información útil es lo que se conoce como MapReduce.

MapReduce es un método para tomar un gran conjunto de datos y realizar cálculos en él a través de múltiples ordenadores, en paralelo. Sirve como modelo de cómo programar y a menudo se utiliza para referirse a la implementación real de este modelo.

En esencia, MapReduce consta de dos partes. La función Map hace la clasificación y el filtrado, tomando los datos y colocándolos dentro de categorías para que puedan ser analizados.

La función Reduce proporciona un resumen de estos datos combinándolos todos juntos. Aunque se atribuye en gran medida a la investigación que tuvo lugar en Google, MapReduce es ahora un término genérico y se refiere a un modelo general utilizado por muchas tecnologías.

¿Qué herramientas se utilizan para analizar el big data?

Tal vez la herramienta más influyente y consolidada para el análisis de big data sea la conocida como Apache Hadoop.

Apache Hadoop es un marco para almacenar y procesar datos a gran escala, y es completamente de código abierto. Hadoop puede ejecutarse en hardware básico, lo que facilita su uso con un centro de datos existente, o incluso para realizar análisis en la nube. Hadoop se divide en cuatro partes principales:

  • El sistema de archivos distribuidos de Hadoop (HDFS), que es un sistema de archivos distribuido diseñado para un ancho de banda agregado muy alto;
  • YARN, una plataforma para gestionar los recursos de Hadoop y programar los programas que se ejecutarán en la infraestructura de Hadoop;
  • MapReduce, como se ha descrito anteriormente, un modelo para realizar el procesamiento de big data;
  • Y un conjunto común de bibliotecas para que otros módulos las utilicen.

También existen otras herramientas. Una que recibe mucha atención es Apache Spark. El principal argumento de venta de Spark es que almacena gran parte de los datos para su procesamiento en la memoria, en lugar de en el disco, lo que para ciertos tipos de análisis puede ser mucho más rápido. Dependiendo de la operación, los analistas pueden ver resultados cien veces más rápidos o más. Spark puede utilizar HDFS, pero también es capaz de trabajar con otros almacenes de datos, como Apache Cassandra u OpenStack Swift. También es bastante fácil ejecutar Spark en una sola máquina local, lo que facilita las pruebas y el desarrollo.

Para obtener más información sobre Apache Spark, consulte nuestra colección de artículos sobre el tema.

Otras herramientas de big data

Por supuesto, estas no son las únicas herramientas de big data que existen. Hay innumerables soluciones de código abierto para trabajar con big data, muchas de ellas especializadas para ofrecer características y rendimiento óptimos para un nicho específico o para configuraciones de hardware concretas.

La Apache Software Foundation (ASF) apoya muchos de estos proyectos de big data. He aquí algunos que pueden resultarle útiles.

  • Apache Beam es «un modelo unificado para definir pipelines de procesamiento paralelo de datos, tanto en lote como en flujo». Permite a los desarrolladores escribir código que funciona en varios motores de procesamiento.
  • Apache Hive es un almacén de datos construido sobre Hadoop. Se trata de un proyecto de alto nivel de Apache que «facilita la lectura, la escritura y la gestión de grandes conjuntos de datos… utilizando SQL».
  • Apache Impala es un motor de consulta SQL que se ejecuta en Hadoop. Se está incubando dentro de Apache y se promociona por mejorar el rendimiento de las consultas SQL al tiempo que ofrece una interfaz familiar.
  • Apache Kafka permite a los usuarios publicar y suscribirse a fuentes de datos en tiempo real. Su objetivo es aportar la fiabilidad de otros sistemas de mensajería a los datos en flujo.
  • Apache Lucene es una biblioteca de software de indexación y búsqueda de texto completo que puede utilizarse para motores de recomendación. También es la base de muchos otros proyectos de búsqueda, como Solr y Elasticsearch.
  • Apache Pig es una plataforma para analizar grandes conjuntos de datos que se ejecuta en Hadoop. Yahoo, que lo desarrolló para realizar trabajos MapReduce en grandes conjuntos de datos, lo aportó a la ASF en 2007.
  • Apache Solr es una plataforma de búsqueda empresarial basada en Lucene.
  • Apache Zeppelin es un proyecto en fase de incubación que permite el análisis interactivo de datos con SQL y otros lenguajes de programación.

Otras herramientas de big data de código abierto que puede investigar son:

  • Elasticsearch es otro motor de búsqueda empresarial basado en Lucene. Forma parte de la pila Elastic (antes conocida como pila ELK por sus componentes: Elasticsearch, Kibana y Logstash) que genera información a partir de datos estructurados y no estructurados.
  • Cruise Control fue desarrollado por LinkedIn para ejecutar clusters de Apache Kafka a gran escala.
  • TensorFlow es una biblioteca de software para el aprendizaje automático que ha crecido rápidamente desde que Google la abrió a finales de 2015. Ha sido elogiada por «democratizar» el aprendizaje automático debido a su facilidad de uso.

A medida que el big data sigue creciendo en tamaño e importancia, la lista de herramientas de código abierto para trabajar con él seguramente también seguirá creciendo.

[scriptless]

 

Entradas relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *