Desde a ¨²ltima vez que falamos sobre (Representa??es de Codificador Bidirecional de Transformadores, ou Bidirectional Encoder Representations from Transformers em ingl¨ºs) no Radar, nossos times o usaram com sucesso em alguns projetos de processamento de linguagem natural (PLN). Em uma de nossas clientes, observamos melhorias significativas quando mudamos do tokenizador BERT padr?o para um tokenizador de peda?os de palavras treinado por dom¨ªnio para consultas que cont¨ºm substantivos como nomes de marcas ou dimens?es. Embora o PLN tenha v¨¢rios novos modelos de transformadores, o BERT ¨¦ bem compreendido, conta com boa documenta??o e uma comunidade vibrante, e continuamos a consider¨¢-lo eficiente em um contexto de PLN empresarial.
significa Bidirectional Encoder Representations from Transformers. ? um novo m¨¦todo de pr¨¦-treino de representa??es de linguagem que foi publicado por pesquisadores do Google, em outubro de 2018. BERT alterou significativamente o panorama do processamento de linguagem natural (NLP, em ingl¨ºs) ao obter resultados de ponta em NLP. Baseado na arquitetura Transformer, ele aprende com contexto do lado esquerdo e do lado direito de um token durante o treinamento. O Google tamb¨¦m lan?ou modelos BERT de uso geral pr¨¦-treinados em um grande corpo de texto sem tags, incluindo a Wikipedia. Pessoas desenvolvedoras podem usar e ajustar esses modelos pr¨¦-treinados em seus dados para tarefas espec¨ªficas e conseguir grandes resultados. Falamos sobre transferir aprendizado para NLP em nossa edi??o de abril de 2019 do Radar. O BERT e seus sucessores continuam a fazer da transfer¨ºncia de aprendizado para NLP uma ¨¢rea muito empolgante, com significativa redu??o do esfor?o para usu¨¢rios lidando com classifica??o de texto.

