Desde la ¨²ltima vez que hablamos de (Bidirectional Encoder Representations from Transformers) en el Radar, nuestros equipos lo han utilizado exitosamente en unos cuantos proyectos de procesamiento del lenguaje natural (NLP por sus iniciales en ingl¨¦s). En una de nuestras colaboraciones, observamos mejoras significativas al cambiar el tokenizador por defecto de BERT por un tokenizador word-piece entrenado por el dominio, para preguntas que conten¨ªan nombres de marcas o dimensiones. Aunque NLP tiene varios modelos nuevos de transformador, BERT es bien conocido, con una buena documentaci¨®n y una vibrante comunidad, y continuamos consider¨¢ndolo efectivo en un contexto de NLP empresarial.
(Bidirectional Encoder Representations from Transformers) es un nuevo m¨¦todo de representaci¨®n de lenguaje pre-entrenado publicado por investigadores de Google en Octubre de 2018. BERT ha modificado significativamente el ecosistema del procesamiento del lenguaje natural (PLN) obteniendo resultados vanguardistas en una amplia gama de tareas de PLN. Basado en una arquitectura Transformer, durante el entrenamiento aprende del contexto de un token tanto por la derecha como por la izquierda. Google tambi¨¦n ha publicado modelos pre-entrenados de prop¨®sito general para BERT que han sido entrenados en un gran corpus de texto no etiquetado, incluyendo la Wikipedia. Developers pueden usar y ajustar estos modelos pre-entrenados para los datos espec¨ªficos de su tarea y conseguir grandes resultados. Hablamos acerca de transferencia de aprendizaje en PLN en nuestra edici¨®n de Abril de 2019 del Radar; BERT y sus sucesores contin¨²an haciendo que la transferencia de aprendizaje para PLN sea un campo muy interesante, reduciendo significativamente el esfuerzo para usuarios que lidian con la clasificaci¨®n de texto.

