NoSQL propone lenguajes de bajo nivel, por lo que es una apuesta contra el compilador

Segunda parte de la traducción del artículo Michael Stonebraker Explains Oracle’s Obsolescence, Facebook’s Enormous Challenge, by Tiernan Ray. Puedes ver la primera parte en Stonebraker: la base de datos Oracle está obsoleta y Facebook tiene el mayor problema de datos del mundo

Un tercio del mercado de bases de datos tradicionales, como Oracle, SQL Server y DB2, serán reemplazadas por cosas tales como VoltDB, y si Oracle puede adaptarse o desaparecerá es algo que está por verse:

Oracle o SQL Server o DB2 son códigos heredados en este momento. Hay gran libro de Clayton Christensen, El dilema del innovador. Todos los proveedores de software de sistemas se enfrentan al dilema del innovador. Están vendiendo la vieja tecnología; y la pregunta es ¿cómo van a transformarse sin perder su base de clientes? No hay duda de que con Oracle los clientes provienen de los sistemas tradicionales, al estar profundamente enraizados en estos, pero mi punto de vista es que hay dos órdenes de magnitud en cuanto a la diferencia de rendimiento que se tendrá con los otros enfoques de la tecnología, y tarde o temprano eso será significativo. Puede que se tarde una década o más para que las tecnologías de legado desaparezcan realmente, ¡todavía hay una gran cantidad de datos de IMS en producción en el mundo real! – Pero tarde o temprano serán reemplazados. Mi punto de vista es que si quieres realizar 50 transacciones por segundo, no importa qué tecnología utilices, puedes usar la que quieras. Pero si deseas ejecutar 50.000 transacciones por segundo, tu implementación actual simplemente no va a lograrlo. Tarde o temprano, te vas a enfrentar a una barrera tecnológica que te obligará a adoptar la nueva tecnología; y estará completamente basada en el retorno de la inversión.

Hasta dónde llegarán NoSQL y Hadoop

Otra tercera parte del mercado, centrada en el «almacenamiento de datos», se está pasando de los almacenes de filas a los «almacenes de columnas». Pueden ser mucho más eficientes, dice. «Todos los proveedores de almacenamiento de datos se han convertido a los almacenes de columna o están llevando a cabo dicho proceso».

El último tercio es «todo lo demás», afirma Stonebraker.

Esto incluye bases de datos «NoSQL» como MarkLogic, que describí recientemente; y Hadoop de código abierto ahora comercializada por Cloudera, Hortonworks y otros.

Hay 100 o más de estas empresas de NoSQL y Stonebraker piensa que todas ellas terminarán pareciéndose a bases de datos SQL. «Al principio, NoSQL quería decir ‘No SQL’, luego pasó a ser ‘No solo SQL’ y ahora creo que significa ‘Todavía no SQL’», bromea.

NoSQL propone lenguajes de bajo nivel, por lo que es una apuesta contra el compilador, esto es algo increíblemente peligroso», afirma, al igual que lo era en su día la programación en lenguaje ensamblador. Cree que VoltDB y otros enfoques pueden solucionar los problemas provocados por los SGBDR heredados, y los «programadores de NoSQL se dejarán llevar con la mirada puesta en SQL», sostiene. «Pasarán a lenguajes de alto nivel, y la única alternativa es SQL.

En cuanto a Hadoop, tomará aspectos de SQL y los combinará con el almacenamiento de datos:

Si nos fijamos en los principales proveedores, Cloudera, Facebook y Hortonworks, en lo que respecta a Cloudera, lanzaron el sistema Impala hace poco. Si lo examinamos minuciosamente, se trata de un motor de SQL. MapReduce no aparece por ningún lado. La pila histórica de Hadoop incluía Hive por encima de MapReduce, por encima de HDFS. Si nos fijamos en Impala, podemos ver que MapReduce no aparece por ningún lado. Creo que todo el mundo está más o menos de acuerdo en que la interfaz de MapReduce no es muy interesante. Nadie de los que trabajan con almacenamiento de datos tiene nada que se parezca a esto. Así que creo que MapReduce se atrofiará y será reemplazado por SQL. Impala es un almacén de columnas, por lo que se parece a Vertica o Red Shift, o cualquier otro modelo de almacenamiento de datos. Por lo tanto, el almacenamiento de datos y Hadoop se van a fusionar completamente con el tiempo. 

Y así, «Hadoop se considerará como el mercado del almacenamiento de datos, y NoSQL se verá como el mercado de SQL».

La ciencia de datos, las matrices y los grafos toman el mando

Para Stonebraker, son más interesantes las áreas tales como el «grafo social» de Facebook y el nuevo ámbito de la ciencia de datos.

Predice que muchos de los analistas de negocio que gestionan los almacenes de datos serán reemplazados en los próximos años por los científicos de datos, ya que están capacitados para trabajar con matrices en lugar de tablas, y con técnicas tales como el análisis de regresión, el análisis bayesiano y otros enfoques representados por programas como el paquete estadístico R:

En la actualidad, otra tendencia muy dominante consiste en introducir la inteligencia de negocio en el mercado del almacenamiento de datos, los analistas de negocio utilizan objetos de negocio, Cognos y productos similares a este como una GUI [interfaz de usuario] frente a un sistema SQL. Estos ejecutan análisis de SQL.

Pero lo que creo que seguro que ocurrirá es que los analistas de negocio serán reemplazados por los científicos de datos. Llevará algún tiempo, porque no disponemos de suficientes científicos de datos capacitados, pero el mercado será mucho más sofisticado.

Suponga que usted trabaja en Wal-Mart y tiene que encontrar la manera de abastecer los productos de Wal-Mart para afrontar las principales tormentas de nieve. La consulta que desea ejecutar se refiere a la semana antes de la tormenta y la semana después, lo que se vendió en cada departamento en el noreste del país, y compararlo con otras provincias. Así es cómo funciona normalmente la inteligencia de negocios. Obtenemos como resultado una gran tabla de números.

Como alternativa, los científicos de datos podrían crear un modelo predictivo que realice un pronóstico de las ventas en cada departamento durante el invierno. Si se ejecuta este modelo, obtendremos un montón de predicciones y esto es lo que en realidad quiere el hombre de negocios. Tarde o temprano, el mundo de la inteligencia de negocio se pasará al mundo de la ciencia de datos y se utilizarán técnicas como el análisis de regresión y el análisis bayesiano. Puede que sean palabras mayores, pero todas estas técnicas, si nos fijamos bien, son cálculos basados en matrices y no en tablas.

Aquellos que se dedican a la ciencia de datos suelen programar ahora en MatLab o R. Por lo tanto, a medida que pasemos a la ciencia de datos, realizaremos una transición a los cálculos basados ​​en matrices. La cuestión es la siguiente: ¿se harán en un SGBDR o hay cabida para una nueva clase de gestión de datos basada en matrices? Creo que no existe un dictamen definitivo, pero será un importante mercado y esto sucederá, tal vez no este año, pero con el tiempo. Es una oportunidad para la gestión de datos basada en matrices.

Acabamos de crear algo para hacer frente a esto: SciDB. Se trata de un producto comercial basado en matrices. Hay ciertos tipos de aplicaciones de la ciencia de datos que están ganando una gran cantidad de adeptos. El mercado de la genética será enorme, ya que cada uno de nosotros dispone de una secuenciación genética. Todo lo que desean estos chicos se basa completamente en matrices. SciDB se centra en la genética a corto plazo, pero con el tiempo pasará a otras áreas.

Artículo original: Michael Stonebraker Explains Oracle’s Obsolescence, Facebook’s Enormous Challenge, by Tiernan Ray

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *