Transformers: La nova joia del «Deep Learning»

(versió anglesa d’aquesta publicació a medium)

La major part del nostre temps ens comuniquem en llenguatge natural, és a dir, en text no estructurat, ja sigui escrit o parlat. Per aquest motiu, des de fa molts anys s’està treballant per aconseguir que les màquines comprenguin aquests textos no estructurats i n’extreguin la informació rellevant. És el que coneixem com a Processament del Llenguatge Natural o Natural Language Processing (NLP), un dels molts camps de coneixement de la Intel·ligència Artificial.

Fins fa ben poc era un veritable desafiament per a qualsevol dels múltiples enfocaments usats a NLP el comprendre els matisos del llenguatge natural. Però a l’any 2017 va apareixer l’article de recerca ‘Attention is all you need’ que proposava una nova arquitectura de xarxa neuronal anomenada Transformer. Sens dubte va suposar un punt d’inflexió que va canvia totalment el camp del NLP.

Sense adonar-nos-en, sovint interactuem amb Transformers. Per exemple, ja en el 2019 Google va introduir Transformers al seu motor de cerca per millorar els resultats. Un exemple que el mateix Google explica en aquest post es quan algú escrivia «2019 brazil traveller to usa need a visa » al seu cercador (Figura 1). Com a humans, és fàcil entendre que es tracta d’algú que vol anar del Brasil als Estats Units i que necessita un visat i no al revés.

Figura 1: Resultats del cercador de Google abans i després d’usar Transformers (Imatge de Google).

Pero els algorismes que aplicaven anteriorment no entenien la importància d’aquesta connexió i retornaven resultats sobre ciutadans nord-americans que viatjaven al Brasil (part esquerra de la Figura 1). Aquí, la paraula «to» i la seva relació amb les altres paraules de la consulta són fonamentals per entendre el significat. Els Transformers poden captar aquest matís i saber que una paraula tant comuna com «to» té un rol molt important aquí, i permetre que en aquest cas el buscador mostri un resultat molt més proper a la intenció de l’usuari (part dreta de la figura).

Tot plegat ha comportat que en els darrers anys, els Transformers en NLP han experimentat un ràpid progrés (a la Figura 2 es mostra un resum dels més populars). Això ha estat gràcies a que la majoria d’aquests models estan entrenats en un conjunt de dades de text sense etiquetar. Per exemple, les paraules o frases s’eliminen aleatòriament del text i el model ha d’aprendre a omplir-les utilitzant només les paraules que l’envolten com a context. És una forma d’entrenament senzilla que permet aprofitar el milions de dades disponibles a Internet i així obtenir models potent i generalitzables com son els Transformers. Però per això es requereixen unes ingents infraestructures de computació només a l’abast d’unes poques empreses. Per exemple, per entrenar el Transformer MT-NLG,  s’han requerit centenars de servidors multi-GPU DGX A100 amb  un cos aproximat de l’entrenament d’uns 100 milions de dòlars.

Figura 2: Principals Transformers en NLP.

 

Suposo que a aquestes alçades el lector es preguntarà si aquesta tecnologia tan disruptiva és realment a l’abans de la seva empresa o només és a l’abans d’unes molt poques empreses?. Sortosament, hi ha maneres d’aconseguir que la nostra empresa s’en pugui beneficiar dels Transformers, en parlarem en el següent post. T’hi espero!