Al construir productos de datos usando un enfoque en el producto, es necesario considerar el linaje, la visibilidad y la gobernanza de los datos. Nuestros equipos han encontrado que puede ser de gran ayuda en estos casos. A pesar de que las primeras versiones de DataHub necesitaban que se genere una rama y se gestione la sincronizaci¨®n desde el producto principal a mano (si existiese la necesidad de actualizar el modelo de metadatos), las mejoras recientes han introducido caracter¨ªsticas que permiten a nuestros equipos implementar con una arquitectura basada en complementos. Otra caracter¨ªstica ¨²til de DataHub es el robusto linaje de datos de extremo a extremo, desde el origen, pasando por el procesamiento, hasta el consumo. DataHub soporta integraciones de tipo push y pull para la extracci¨®n de linajes que autom¨¢ticamente examinan los metadatos de or¨ªgenes, schedulers, orquestadores (scanning the Airflow DAG), tareas de procesamiento de pipelines y tableros (dashboards), por nombrar algunos. Como opci¨®n de c¨®digo abierto para un cat¨¢logo de datos hol¨ªstico, DataHub se est¨¢ convirtiendo en la opci¨®n por defecto de nuestros equipos.
Desde que mencionamos el descubrimiento de datos por primera vez en el Radar, LinkedIn ha evolucionado hacia , la plataforma de nueva generaci¨®n para descubrimiento de datos v¨ªa un sistema extensible de metadatos. En lugar de rastrear y extraer metadatos, DataHub adopta un modelo basado en push, en el que los componentes individuales del ecosistema de datos publican metadatos mediante una API o un stream hacia la plataforma central. Este modelo de integraci¨®n traslada la propiedad de la entidad central a cada uno de los equipos, haci¨¦ndolos responsables de sus metadatos. Como resultado, hemos utilizado DataHub con ¨¦xito como repositorio de metadatos a nivel de organizaci¨®n y punto de entrada de m¨²ltiples productos de datos mantenidos aut¨®nomamente. Cuando se toma este enfoque, hay que asegurarse de que sea ligero y evitar el peligroso camino que lleva al control centralizado sobre un recurso compartido.
Desde que mencionamos al descubrimiento de datos por primera vez en el Radar, LinkedIn ha evolucionado en , la plataforma de nueva generaci¨®n que aborda la capacidad de descubrimiento de datos a trav¨¦s de un sistema extensible de metadatos. En lugar de rastrear y extraer metadatos, DataHub adopta un modelo basado en push en el que los componentes individuales del ecosistema de datos publican metadatos mediante un API o un stream hacia la plataforma central. Este modelo de integraci¨®n traslada la propiedad de la entidad central a los equipos individuales, haci¨¦ndolos responsables de sus metadatos. A medida que m¨¢s y m¨¢s empresas intentan orientarse a los datos, es fundamental tener un sistema que ayude con el descubrimiento y la comprensi¨®n de la calidad y el linaje de los datos, por lo que recomendamos evaluar a DataHub en esa capacidad.

