¿Cuanto más grande, mejor? Nuevo record en el número de parámetros de un Transformer

Los modelos de generación de lenguaje llamados Transformers conforman actualmente uno de los campos más activos en el área de la inteligencia artificial, solo al alcance de unas pocas empresas tecnológicas debido a los recursos que se requieren. Hace unos días Google nos sorprendía con un nuevo récord de número de parámetros  en un modelo de lenguaje.

Tamaño del modelo

Los modelos de generación de lenguajes tienen una gran cantidad de parámetros, pero este último de Google, llamado Pathways Language Model (PaLM), supera a todos les existentes hasta el momento (figura 1). Concretamente este modelo está compuesto de 540 mil millones de parámetros, que son 10 mil millones más parámetros que el hasta ahora mayor de los modelos,  el llamado Megatron-Turing NLG de Microsoft/NVIDIA.  Ambos con más del triple de parámetros que el famoso GPT-3, que «solo” tenía 175 mil millones de parámetros. 

Recursos de computación necesarios

Todos los modelos de generación de lenguajes basados en Trasformers requieren una ingente cantidad de recursos computacionales para ser entrenados. Google ha reportado que para este modelo requiere nada más y nada menos que 2.560.000.000.000.000.000.000.000 FLOPS. Concretamente han usado (cito literalmente el artículo) “6144 TPU v4 chips for 1200 hours and 3072 TPU v4 chips for 336 hours”, es decir, se han requerido más de dos meses de ejecución en un mega sistema de supercomputación.

¿Es mucho o poco? Pregunten a Mateo Valero, nuestro director del Barcelona Supercomputing Center! 😉

En la figura anterior se muestran los los requisitos computacionales, en términos de FLOPs necesarios para el entrenamiento del modelo, de los modelos que hemos presentado en la figura del apartado anterior. En esta figura, podemos observar la tendencia creciente de la demanda computacional proporcional a la escala del modelo.

Y es que como sabemos, el consumo energético es una de las variables operativas más significativas debido a la alta demanda energética que requieren los diferentes elementos que componen un centro de datos de supercomputación. Afortunadamente, los autores indican que usaron principalmente energía limpia para entrenar el modelo: “The Oklahoma datacenter is substantially powered by wind and other renewable energy sources, and operated on 89% carbon-free energy during the time period that the PaLM-540B was trained”. ¡Buenas notícias!

¿Hasta dónde llegaremos?

De acuerdo con el artículo, este modelo propuesto muestra grandes mejoras en relación a los modelos existentes hasta ahora: razonamiento, comprensión/generación de lenguaje natural o generación de código. Pero es más, los autores consideran que el modelo aún puede mejorar sus resultados aumentando su tamaño, puesto que han comprobado que el rendimiento del modelo en función de la escala (en el artículo experimentan con con tres tamaños distintos del mismo modelo) sigue un comportamiento logarítmico lineal similar al de los modelos anteriores, lo que sugiere que las mejoras de rendimiento debido a la escala aún no se han estancado y hay recorrido para intentar mejorarlo.

Además, lo más probable es que este modelo podría ser aún más potente si se entrenara con una cantidad sustancialmente mayor de datos si tenemos en cuenta un artículo que DeepMind acaba de publicar  en el que demuestra que se puede mejorar drásticamente el rendimiento de estos modelos de lenguaje al escalar los datos de manera más agresiva que los parámetros.

Conclusiones

En resumen, aún queda futuro en esta joven área y parece que este futuro está llegando muy, pero que muy rápido. Y esto abre otro gran debate muy importante relacionado con los riesgos éticos y sociales asociados con los grandes modelos de lenguaje que estamos creando. Pero esto lo dejamos ya para otro post. 😉

(Imagen de portada: Google)