martes , 21 agosto 2018
Inicio / Big Data / ¿Qué herramientas necesitas para iniciarte en Big Data?

¿Qué herramientas necesitas para iniciarte en Big Data?

Desde la creación de Internet y cada vez más, se ha contado con datos generados por infinidad de aplicaciones y que tenemos a nuestro alcance esperando a ser usados. Antaño, tener y consumir todo este ingente material se podía volver una tarea prácticamente imposible o inviable tanto económica como tecnológicamente. Esto limitaba el uso de la información a aquella que era más relevante y punto. Vamos a ver en que herramientas podemos iniciarnos para solventar este handicap y sacar el máximo valor a nuestros datos. Herramientas open-source y que cualquiera tiene a su disposición. El ecosistema Hadoop.

Hablar de Big Data es hablar de Hadoop y todo lo que lo rodea. Vamos a ver qué es Hadoop. Hadoop se sustenta en la forma en la que almacena y accede a los datos. Hadoop está formado por HDFS y MapReduce. La combinación de estos dos permite que los datos estén replicados y distribuidos por N nodos beneficiando la capacidad de acceso a grandes volúmenes. Cuando queremos ejecutar alguna operación sobre estos datos distribuidos, Hadoop se encarga de procesar cada porción de los datos en el nodo que los contiene. De esta forma se aprovecha la localidad de tener los datos cerca de donde se van a procesar y permite escalar de forma casi lineal. Si queremos crecer en capacidad, añadimos más nodos y listo. Del almacenamiento se encarga HDFS y del procesamiento MapReduce

Hay muchos otros productos que funcionan junto con Hadoop y permiten nuevas funcionalidades. Según el tipo de aplicación usaremos unas u otras. También existen variantes de estas herramientas adaptadas a usos específicos, como SparkOnHBase, Spork, RHadoop y otros muchos más. Aquí tenéis una minúscula clasificación:
Data Engineering: Spark, Hive, Pig
Data Discovery & Analytics: Spark, Impala, Solr
Data Integration & Storage: HBase, Kudu, HDFS
Unified Data Services: Yarn, Sentry, Hue, Oozie
Data Ingestion: Sqoop, Flume, Kafka

Mayor información: https://inlab.fib.upc.edu/es/blog/que-herramientas-necesitas-para-iniciarte-en-big-data

Acerca de Conocimiento Libre

Compruebe también

LPIC-1

¿Preguntas frecuentes sobre la certificación LPIC-1?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *