Spark supera los tiempos de MapReduce

El pasado mes de octubre, Databricks mostró los resultados de su participación en el Sort Benchmark, una competición para medir el rendimiento de ordenación en grandes clusters. Spark, ejecutado sobre Hadoop, ordenó 100 TB de datos en 23 minutos, un resultado tres veces más rápido que el record del año anterior, conseguido por Yahoo, usando MapReduce sobre Hadoop.

Con el fin de probar la escalabilidad de Spark, la compañía también ejecutó 1PB, a pesar de que los resultados no iban a ser oficialmente registrados. Bajo la guía del arquitecto y co-fundador de Databricks, Reynold Xin, la compañía registró 190 EC2 de instancias y completó la ordenación masiva en 234 minutos. Estos resultados son cuatro veces más rápidos que el record previo  establecido por Yahoo con un cluster Hadoop-MapReduce corriendo sobre 3800 máquinas.

Sin embargo, a pesar de los resultados, han surgido preguntas sobre la escalabilidad de Spark. Yahoo, en particular, ha puesto en duda la capacidad del Spark para ejecutarse en grandes clusters El cluster de 32000 nodos de Yahoo es uno de los más grandes del mundo, y el gigante de Internet ha sido fundamental en el desarrollo de una variedad de tecnologías de Hadoop en los últimos años, incluidos YARD y Hadoop versión 2.
Se han implementado varias mejoras que hacen que Spark aumente su escalabilidad. Destacan la re-escritura de la función shuffle, trabajo que ha sido realizado por el fundador de Spark, Matei Zaharia, y la nueva capa de transporte que puede soportar una velocidad Ethernet de 10Gbps, lo que es fundamental para soportar “shuffling”.

 

Puedes leer el artículo completo en la web de Datanami

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *