Cada vez más, las empresas y organizaciones se dan cuenta de la importancia de los datos de que disponen. Ser capaces de transformar estos datos en información útil es crucial para mejorar la toma de decisiones, la competitividad y la eficacia.
No obstante, la gran mayoría de los datos se encuentran almacenados y aislados en multitud de bases de datos distintas. Estas bases de datos, conocidas como transaccionales, están diseñadas para dar soporte a los distintos procesos de negocio de la entidad (compras, administración, recursos humanos, etc.), es decir, para gestionar el día a día. Sin embargo, dichos sistemas normalmente no acumulan datos históricos, ni están homogenizados entre si (se generan silos), por lo cual es sumamente difícil combinar estos datos para tener una visión transversal y tomar decisiones desde un punto de vista estratégico.
Debemos pues, ser capaces de alzar la vista y tener una perspectiva global de la administración a través de los datos. Para abordar este reto, se han propuesto distintas soluciones tecnológicas, conocidas como sistemas de inteligencia empresarial o business intelligence. De forma general, podríamos decir que estas soluciones se basan en copiar los datos que usamos en nuestro día a día a un nuevo repositorio, dónde los organizaremos de forma que nos permitan analizarlos desde una perspectiva global.
Los enfoques habituales adoptados en los últimos años consisten en la creación de un almacén de datos o data warehouse o, más recientemente, en la creación de uno o múltiples sistemas de tipo data lake. Sin embargo, en este artículo quiero analizar un enfoque relativamente novedoso como es el data hub, y reflexionar sobre cuáles son las ventajas que nos aporta, y que diferencias y similitudes guarda con las otras soluciones mencionadas.
Data warehouse
El data warehouse o almacén de datos es una solución tradicionalmente adoptada en los proyectos de inteligencia empresarial. Este enfoque consiste en crear una base de datos específica, diferente de las bases de datos de los sistemas operacionales, dónde volcaremos copias de los datos.
En los almacenes de datos se guardarán datos históricos y actuales que estarán completamente homogenizados y normalizados. Esto requiere implementar diversos procesos de extracción y transformación de los datos previamente a su carga en el almacén de datos (schema-on-write). Son los llamados procesos de ETL (Extract, Transform and Load).
Este enfoque es útil y valido en muchos casos, aunque también presenta dificultades. Principalmente, porque son proyectos largos y costosos de construir y mantener, y porque una vez creados son difícilmente modificables para que puedan responder a nuevas preguntas que puedan aparecer en el área de negocio.
Data lake
Más recientemente ha aparecido en concepto de data lake, que trata de solventar alguna de las limitaciones del data warehouse. Si en el caso del data warehouse era necesario transformar y homogenizar los datos antes de la carga, en este caso los datos se cargan prácticamente en su formato original. Por lo tanto, se simplifican los procesos de ETL, reduciéndolos a extracción y carga, y dejando la transformación para después (schema-on-read).
Este enfoque se ha popularizado, en parte, debido a las facilidades que ofrece el Cloud para almacenar datos a bajo coste. Además, el hecho de evitar las transformaciones nos permite ser mucho más ágiles a la hora de construir el data lake y de añadir o modificar su contenido más adelante.
No obstante, todas estas ventajas nos pueden traer también dificultades a posteriori. Principalmente, porque todo el trabajo de transformación se deberá hacer a la hora del análisis de datos, lo cual implica más tiempo y la necesidad de unos perfiles técnicamente avanzados para poder extraer información de éstos datos.
Data hub
El concepto de data hub es más reciente, y diría que un poco ambiguo, pues he visto usarlo con distintos significados en distintas situaciones.
En este artículo, entenderemos el data hub como una plataforma donde podamos almacenar datos de manera sencilla para facilitar la toma de decisiones. Y la diferencia clave respecto al data lake y el data warehouse está en su sencillez. El data hub pretende dar más autonomía a los usuarios de negocio para trabajar con los datos (autoservicio de datos).
Podríamos entender un data hub como un portal de datos abiertos, pero sin la necesidad de ser abierto. Los portales de datos abiertos más modernos tienen algunas características interesantes, que pueden ser explotadas también internamente:
Este enfoque tiene algunas ventajas respecto a los anteriores. Principalmente:
Por supuesto, el hub de datos no es una solución perfecta y también se enfrenta a algunos retos. El principal es la necesidad de una buena organización interna para garantizar que los datos son útiles, de calidad y se mantienen actualizados. Además, en algunos casos puede ser complejo trasladar los datos originales a tablas, por lo que se requiere trabajar con tablas múltiples o incluso con otros tipos de formatos de más difícil explotación como JSON o XML.
Pero, ¿y no vamos a hablar de big data?
Por supuesto, un artículo que hable de gestión de datos en la actualidad debe incluir la palabra big data. Son unas soluciones que están muy de moda, y la realidad es que su buena fama está justificada por su utilidad y los buenos resultados que ofrece. No obstante, es importante no dejarse llevar por las modas y entender en qué casos sí nos puede ser útil una solución de tipo big data.
La gran diferencia en los enfoques big data respecto a las soluciones anteriores radica en la inmediatez. En estas soluciones, se requiere que el sistema sea capaz de consultar datos, añadir nuevos registros o eliminarlos a una velocidad y en un volumen tan grande que los tradicionales sistemas relacionales no son capaces de alcanzar.
Para ello, las soluciones big data modifican las reglas del juego, flexibilizando los estrictos requisitos de las bases de datos relacionales para poder ganar agilidad. Esto nos permitirá almacenar y analizar grandes volúmenes de datos en tiempo real.
De hecho, algunas soluciones de tipo data lake utilizan tecnología big data para almacenar los datos, aunque los dos conceptos no son necesariamente equivalentes.
Las soluciones de big data se han mostrado muy efectivas para casos de usos concretos en los que tenemos unos requisitos muy exigentes en cuanto a volumen y velocidad de procesamiento. En cambio, las soluciones mencionadas son probablemente más adecuadas para una gestión de datos corporativa de manera transversal.
Conclusiones
El mundo de la gestión interna de datos de manera transversal se va haciendo cada vez más necesario, y los enfoques tecnológicos para dar respuesta a estas necesidades no dejan de evolucionar. Las soluciones mencionadas en este artículo no son necesariamente excluyentes entre sí, si no que en muchos casos pueden ser complementarias. En este contexto, el concepto de data hub está emergiendo como una solución cada vez más adoptada por entidades tanto públicas como privadas para mejorar su gestión interna de los datos.
No obstante, hay que tener en cuenta que es importante entender bien que nos ofrece cada solución para determinar en qué caso nos puede ser más conveniente. Además, no hay que olvidar que la implementación de nuevas tecnologías debe ir acompañada de un cambio cultural que implique a todo el equipo para poder realizar una gestión eficiente de los datos.