¿Buscas talento?

Buscador de empleo Big Data.

La comunidad de profesionales de tecnologías y aplicaciones de Big Data

¿Qué es y qué no es Big Data?

A pesar de que Big data fue uno de los términos más usados el pasado 2013, sigue habiendo mucha confusión en torno a su significado. Con este post pretendemos aclarar, en la medida de lo posible, qué es y qué no es Big Data.

  • Sistemas de almacenamiento escalable. Soluciones SAN como Netapp, no son tecnologías Big Data, ya que no solucionan la búsqueda masiva o el procesamiento en paralelo de esos datos. Otro ejemplo son los sistemas basados en cantidades ingentes de memoria.
  • Máquinas de 50 cores, aumentar procesos añadiendo hardware al servicio. Máquinas con capacidades de procesamiento brutales no aseguran a largo plazo que la información que se quiere procesar no esté en peligro en el futuro. Este es el caso más típico de escalabilidad vertical, que suele venir acompañado de costes altísimos.
  • Big Data no son productos anteriores con un restyling o mayores máquinas. Dada la moda y revuelo alrededor de Big Data, muchos productos antiguos han sacado versiones Big Data que añaden unas pequeñas características para categorizarlos con esta tecnología. Algunas pautas para descartar a los “lobos disfrazados con piel de corderos” son asegurarse de que cumplen las características de Big Data, por ejemplo que pueden escalar horizontalmente con bajo coste o que aceptan y transforman en valor datos no estructurados sin limitaciones.

  • Big Data contempla no solo datos estructurados. Oracle considera que su sistema 11g es capaz de resolver problemas de Big Data, pero dado que sólo funciona para datos estructurados o diseñados/conocidos upfront, eso no es cierto y es una de las principales perjudicadas de ese movimiento.
  • Big Data no son 100 máquinas. Una de las ventajas de las tecnologías de Big Data es su flexibilidad y escalabilidad, no hace falta montar un cluster de 100 máquinas para comenzar con Big Data. Podemos plantear sistemas más pequeños que vayan creciendo según nuestras necesidades.
  • Big Data no es solo almacenar los datos. Es procesarlos y convertirlos en conocimiento y valor para la empresa.
  • El tamaño o el volumen no es el gran problema a resolver. Son problemas a tener en cuenta por su impacto sobre los sistemas y tiempo necesarios para almacenar y procesar los datos. Los grandes problemas a resolver son la variedad de la información que se quiere procesar y la velocidad a la que se debe de realizar, que combinado con el volumen nos indicará el tamaño del cluster que se necesitará.

Big Data no es una moda

Este es otro de los grandes problemas de Big Data. Está tan de moda y hay tanto alboroto alrededor del término, que realmente la gente no sabe si es una moda pasajera (por lo que entonces mejor no invertir en ella) o un sistema útil y afianzado. Según una afirmación de Hortonworks, “En cinco años, el 50% de los datos generados se almacenarán en sistemas Big Data”. Realmente, en encuestas que se han hecho, el 83% de las empresas afirman que pudieron hacer cosas con Big Data hasta entonces imposibles.Y nosotros en nuestra empresa, ayudando a muchos clientes, hemos visto que esto es una realidad. Hay sistemas y proyectos que no eran técnicamente posibles hace tres años, antes de que llegaran estas tecnologías. Pero actualmente sí son posibles. Por lo tanto, nuestra conclusión es que estas tecnologías son una realidad, permiten hacer cosas realmente sorprendentes (en algunos casos, imposibles con otras tecnologías) y está contrastado que presentan un valor y ventajas competitivas.

Más de 50 tecnologías Big Data

Como en todas las tecnologías no todos los productos son iguales. Existen tecnologías de Big Data Open Source gratuitas, Open Source de pago (en licencia o en soporte) y Privadas, con diferentes rendimientos y optimizadas para diferentes casos de uso. Por otro lado, existen distribuidores que dan soluciones Big Data a las que asocian hardware específico, apostando de esta forma por una escalabilidad vertical, o en el mejor caso horizontal, pero sujeta a un hardware concreto (caso de algunas de las soluciones de Intel o IBM)

  • Las tecnologías Open Source son tecnologías abiertas y gratuitas, con el respaldo de una comunidad inmensa de expertos y empresas con reputación y solvencia, como Apache Foundation, Google, Twitter, Facebook, entre otras, que mantienen y evolucionan constantemente estas tecnologías.
  • Las tecnologías Privativas se basan en algunos casos en las tecnologías Open Source adaptadas y en otros (los menos) en desarrollos propios.

En este gráfico hemos intentado categorizar las distintas tecnologías y productos que hay actualmente en el mercado. No vamos a ir enumerándolos, porque hay más de 500 productos que se catalogan con Big Data (algunos lo son y otros no)

50tecnologiasBigData

  • Productos propietarios: Tenemos desde EMC a cualquier plataforma de IBM, uno de los productos propietarios más extenso y con mayor “vendor locking”.
  • Entre los productos propietarios basados en Open Source, tenemos cosas tan curiosas como la plataforma de Intel basada en Hadoop.
  • A la izquierda tenemos un montón de plataformas que son Open Source (total o parcialmente). Los más destacados son Cloudera, Hortonworks, Cassandra….

Pero, ¿cómo transformamos estos datos en valor?

Obtener valor de los datos en su ciclo completo

Adicionalmente, esta es otra de las características que más nos parece que tenemos que recalcar de estas tecnologías.  Podemos obtener el valor de los datos en cualquier ciclo de su tiempo:

  • Pasado: Datos almacenados, modo batch;
  • Presente: Flujos de datos actuales, tiempo real, streaming
  • Futuro, refiriéndonos a que estas tecnologías te permiten incorporar o implementar algoritmos y tecnologías predictivas. Esto nos permite adelantarnos a los usuarios y manejar los datos un paso por delante, adivinando lo que va a pasar en aplicaciones, usuarios o sistemas.

Lo que estamos viendo, y queremos trasmitir, es que realmente Big Data es una tecnología que aporta valor adicional a los datos y que la importancia de dichos datos radica en las capacidades que nos proporcionan en cuanto a pasado, presente y futuro.

Escribe una comentario