La malla de datos es un enfoque organizativo y t¨¦cnico descentralizado a la hora de compartir, acceder y gestionar los datos para la anal¨ªtica y el ML. Su objetivo es crear un enfoque ²õ´Ç³¦¾±´Ç³Ù¨¦³¦²Ô¾±³¦´Ç que ampl¨ªe la obtenci¨®n de valor de los datos a medida que crezca la complejidad de la organizaci¨®n y proliferen los casos de uso de los datos y se diversifiquen las fuentes de los mismos. Esencialmente, crea un modelo de intercambio de datos responsable que est¨¢ en consonancia con el crecimiento de la organizaci¨®n y el cambio continuo. Seg¨²n nuestra experiencia, el inter¨¦s por la aplicaci¨®n de la malla de datos ha crecido enormemente. Este enfoque ha inspirado a muchas organizaciones a adoptarlo y a los proveedores de tecnolog¨ªa a readaptar sus tecnolog¨ªas existentes para una implantaci¨®n de malla. A pesar del gran inter¨¦s y la creciente experiencia en la malla de datos, sus implantaciones se enfrentan a un elevado coste de integraci¨®n. Adem¨¢s, su adopci¨®n sigue limitada a secciones de grandes organizaciones y los proveedores de tecnolog¨ªa est¨¢n distrayendo a las organizaciones de los aspectos socio m¨¢s duros de la malla de datos: la propiedad descentralizada de los datos y un modelo operativo de gobierno federado.
Estas ideas se exploran en , que gu¨ªa a los profesionales, arquitectos, l¨ªderes t¨¦cnicos y responsables de la toma de decisiones en su transici¨®n desde una arquitectura tradicional de big data a la malla de datos. Proporciona una introducci¨®n completa a los principios de la malla de datos y sus componentes; cubre c¨®mo dise?ar una arquitectura de malla de datos, guiar y ejecutar una estrategia de malla de datos y navegar por el dise?o organizativo hacia un modelo de propiedad de datos descentralizado. El objetivo del libro es crear un nuevo marco para profundizar en las conversaciones y conducir a la siguiente fase de madurez de la malla de datos.
Cada vez m¨¢s, vemos una falta de coincidencia entre lo que las organizaciones basadas en datos quieren lograr y lo que permiten las arquitecturas de datos y las estructuras organizativas actuales. Las organizaciones quieren integrar la toma de decisiones basada en datos, machine learning y la anal¨ªtica en muchos aspectos de sus productos y servicios y en c¨®mo operan internamente; esencialmente, quieren aumentar todos los aspectos de su panorama operativo con inteligencia basada en datos. Sin embargo, todav¨ªa nos queda mucho camino por recorrer antes de que podamos integrar datos anal¨ªticos, acceder a ellos y c¨®mo se administran en los dominios y operaciones comerciales. Hoy en d¨ªa, todos los aspectos de la gesti¨®n de datos anal¨ªticos se externalizan fuera de los dominios comerciales operativos al equipo de datos y a los monolitos de gesti¨®n de datos: lagos de datos y almacenes de datos. es un enfoque ²õ´Ç³¦¾±´Ç³Ù¨¦³¦²Ô¾±³¦´Ç descentralizado para eliminar la dicotom¨ªa de datos anal¨ªticos y operaciones comerciales. Su objetivo es integrar el intercambio y el uso de datos anal¨ªticos en cada dominio comercial operativo y cerrar la brecha entre los planos operativo y anal¨ªtico. Se basa en cuatro principios: propiedad de los datos de dominio, datos como producto, plataforma de datos de autoservicio y gobernanza federada computacional.
Nuestros equipos han estado implementando la ; han creado nuevas abstracciones arquitect¨®nicas, como el cuanto de producto de datos para encapsular c¨®digo, la pol¨ªtica de datos como una unidad aut¨®noma de intercambio de datos anal¨ªticos incrustada en dominios operativos; y han creado capacidades de plataforma de datos de autoservicio para administrar el ciclo de vida de los cuantos de productos de datos de manera declarativa, como se describe en . A pesar de nuestros avances t¨¦cnicos, todav¨ªa estamos experimentando fricciones con el uso de las tecnolog¨ªas existentes en una topolog¨ªa de data mesh, sin mencionar la resistencia de los dominios comerciales a aceptar el uso compartido y el uso de datos como una responsabilidad de primera clase en algunas organizaciones.
La marca el inicio de un cambio en los paradigmas arquitect¨®nicos y organizacionales sobre c¨®mo se gestionan los datos anal¨ªticos masivos. El paradigma se fundamenta en cuatro principios: (1) descentralizaci¨®n orientada al dominio de la propiedad de los datos y de su arquitectura; (2) datos orientados al dominio servidos como un producto; (3) auto servicio de infraestructura de datos como plataforma, para impulsar la autonom¨ªa de los equipos orientados al dominio; y (4) gobernanza federada para impulsar ecosistemas y la interoperabilidad. Si bien los principios son intuitivos y pretenden abordar muchos de los desaf¨ªos ya conocidos de la gesti¨®n centralizada de datos analiticos, estos trascienden las tecnolog¨ªas actuales para datos analiticos. Luego de construir mallas de datos en muchos clientes con las herramientas existentes hemos aprendido dos cosas: (a) hay una gran brecha en las herramientas de c¨®digo abierto o comerciales para acelerar la implementaci¨®n de mallas de datos (por ejemplo, la implementaci¨®n de un modelo de acceso universal a datos pol¨ªglota basados en tiempo, que actualmente construimos a la medida para nuestros clientes) y (b) a pesar de la brecha, es factible usar tecnolog¨ªas existentes como elementos b¨¢sicos.
Naturalmente, la idoneidad tecnol¨®gica es un componente importante en la implementaci¨®n de una estrategia de datos de una organizaci¨®n basada en una malla de datos. Sin embargo, el ¨¦xito requiere de una reorganizaci¨®n estructural para separar al equipo de la plataforma de datos, crear el rol del product owner de datos para cada dominio e introducir las estructuras necesarias de incentivos para que los dominios se apropien y compartan los datos anal¨ªticos como productos.
La es un paradigma de arquitectura y de organizaci¨®n que desaf¨ªa la vieja presunci¨®n de que se debe centralizar los grandes datos anal¨ªticos para utilizarlos, tener todos los datos en un mismo lugar o gestionarlos a trav¨¦s de un equipo de datos centralizado para entregar valor. Este paradigma afirma que, para que big data promueva la innovaci¨®n, su propiedad debe ser federada entre los due?os de los datos de dominio quienes son responsables de proveer sus datos como productos (con el soporte de una plataforma de datos de autoservicio para abstraer la complejidad t¨¦cnica que supone servir productos de datos); tambi¨¦n se debe adoptar una nueva forma de gobierno federado a trav¨¦s de la automatizaci¨®n que permita la interoperabilidad de los productos de datos orientados a dominios. La descentralizaci¨®n, junto con la interoperabilidad y el enfoque en la experiencia para los consumidores de datos, son clave para la democratizaci¨®n de la innovaci¨®n usando datos.
Si en la organizaci¨®n existe un gran n¨²mero de dominios con varios sistemas y equipos generando datos o un conjunto diverso de casos de uso y patrones de acceso basados en datos, sugerimos evaluar a malla de datos. La implementaci¨®n de este paradigma requiere invertir en la construcci¨®n de una plataforma de datos de autoservicio y aceptar y promover un cambio organizacional para que los dominios tomen la propiedad a largo plazo de sus productos de datos, as¨ª como una estructura de incentivos que premien a los dominios que sirvan y utilicen datos como producto.
es un paradigma de arquitectura que desbloquea datos anal¨ªticos a escala; r¨¢pidamente desbloquea accesos a un n¨²mero cada vez mayor de conjuntos distribuidos de datos de dominio, para una proliferaci¨®n de escenarios de consumo tales como aplicaciones de aprendizaje autom¨¢tico, an¨¢lisis o uso intensivo de datos en toda la organizaci¨®n. Malla de datos aborda los modos de fallas comunes de los centralizados tradicionales o de la arquitectura de plataforma de datos, con un cambio desde el paradigma centralizado de un lake, o su predecesor, el data warehouse. Malla de datos cambia a un paradigma que traza desde una arquitectura distribuida moderna: considerando dominios como los asuntos de primera clase, aplicando platform thinking para crear una infraestructura de datos de autoservicio, tratamiento de datos como un producto, e implementando estandarizaci¨®n abierta para habilitar un ecosistema de productos de datos distribuidos inter-operables.

