Ao construir produtos de dados utilizando o conceito de mentalidade para produtos de dados, ¨¦ essencial considerar a linhagem da dados, sua descoberta e governan?a. Nossos times descobriram que o oferece suporte particularmente ¨²til nesses quesitos. Embora vers?es anteriores do DataHub exigissem a bifurca??o (fork) e o gerenciamento da sincroniza??o a partir do produto principal (caso fosse necess¨¢ria a atualiza??o do modelo de metadados), melhorias em lan?amentos recentes trouxeram recursos que permitem que nossos times implementem com uma arquitetura baseada em plugins. Outra funcionalidade ¨²til do DataHub ¨¦ a robusta linhagem de dados ponta-a-ponta, da origem ao processamento e consumo. O DataHub suporta integra??o baseada em push e tamb¨¦m extra??o de linhagem baseada em pull, que automaticamente varre os metadados t¨¦cnicos em fontes de dados, agendadores, orquestradores (como Airflow DAG scanning), tarefas de pipelines de processamento e pain¨¦is, entre outros. Como uma op??o de c¨®digo aberto para um cat¨¢logo de dados hol¨ªstico, o DataHub est¨¢ se tornando a escolha padr?o para nossos times.
Desde que mencionamos a detec??o de dados pela primeira vez no Radar, o LinkedIn evoluiu o para , uma plataforma de pr¨®xima gera??o que aborda a descoberta de dados por meio de um sistema de metadados extens¨ªvel. Em vez de rastrear e extrair metadados, DataHub adota um modelo baseado em push, em que componentes individuais do ecossistema de dados publicam metadados por meio de uma API ou um fluxo para a plataforma central. Essa integra??o baseada em push transfere a propriedade da entidade central para times individuais, tornando-os respons¨¢veis ??por seus metadados. Como resultado, usamos o DataHub com sucesso como um reposit¨®rio de metadados em toda a organiza??o e como ponto de entrada para v¨¢rios produtos de dados mantidos de forma aut?noma. Ao adotar essa abordagem, certifique-se de mant¨º-la leve e evitar o caminho escorregadio que leva ao controle centralizado sobre um recurso compartilhado.
Desde que mencionamos pela primeira vez a detec??o de dados no Radar, o LinkedIn evoluiu o para , uma gera??o seguinte da plataforma que lida com a detec??o de dados por meio de um sistema de metadados extens¨ªvel. Em vez de rastrear e extrair metadados, o DataHub adota um modelo baseado em push, no qual componentes individuais do ecossistema de dados publicam metadados por meio de uma API ou de um stream para a plataforma central. Essa integra??o baseada em push transfere a propriedade da entidade central para times individuais, tornando-os respons¨¢veis por seus metadados. ? medida que mais empresas tentam se tornar orientadas por dados, ter um sistema que ajuda na descoberta de dados e no entendimento da qualidade e da linhagem dos dados ¨¦ fundamental, e recomendamos que voc¨º avalie essa capacidade no DataHub.

