在使用 数据产物思维 构建产物时,数据血缘、数据可发现性、数据治理非常重要。我们的团队发现 在这些方面能提供非常有效的支持。DataHub 的早期版本在需要更新元数据模型时,要求用户手动复制管理来自主产物的同步。近期的更新引入了通过插件实现的。DataHub 的另一个有用功能是从源头到处理再到消费的强大端到端数据脉络。DataHub 既支持基于推送的集成,也支持基于拉动的数据血缘提取,可自动抓取跨数据源、调度器、协调器(通过扫描 Airflow DAG)、处理管道任务和仪表板等元数据。作为完整数据目录的一个开源选项,DataHub 逐渐成为我们团队的默认选择。
自从我们第一次在技术雷达中提及数据的可发现性以来,尝颈苍办别诲滨苍已经将 进化为 ,一个通过可扩展的元数据系统实现数据可发现性的下一代平台。与爬取和拉取元数据不同,DataHub 采用了基于推送的模式。数据生态系统中各个组件,都可以通过 API 或者流(stream)向中心化的平台上发布元数据。这种基于推送的数据集成,将数据发现所有权从中心实体转移到各个团队,使他们对自己的元数据负责。因此,我们已成功将 DataHub 用于组织层面的元数据存储库和多种自维护的数据产物入口。当使用它时,请确保它足够轻量并避免让它滑坡成对共享资源的中心化控制系统。
自从我们第一次在技术雷达中提及 data discoverability 以来,LinkedIn 已经将 进化为 ,一个通过可扩展的元数据系统实现数据可发现性的下一代平台。与爬取和拉取元数据不同,DataHub 采用了基于推送的模式。数据生态系统中各个组件,都可以通过 API 或者流(stream)向中心化的平台上发布元数据。这种基于推送的数据集成,将数据发现所有权从中心实体转移到各个团队,使他们对自己的元数据负责。随着越来越多的公司试图成为数据驱动型公司,拥有一个有助于数据发现和理解数据质量与渊源的系统,是至关重要的。我们建议评估 DataHub 在这方面的能力。