Este post constituye una adenda a nuestro último libro, ofreciendo pequeños apuntes para enriquecer aspectos específicos del contenido original. Incluye detalles que han emergido después de la publicación del libro y temas que algunos lectores han solicitado que profundice, con el fin de aportar una perspectiva más completa a la obra original (*).
Content
- ¿Qué son las «capacidades emergentes» de una IA generativa? (Profundizando: Páginas 78 y 98)
- ¿Cómo se entrenan los modelos de lenguaje? (Profundizando: Página 77)
- ¿Cómo conseguir un modelo de lenguaje para un ámbito específico? (Profundizando: Página 80)
- ¿Qué son los «modelos fundacionales» de los que se habla tanto? (Profundizando: Página 79)
- Profundizando: ¿Por qué la escalabilidad de las «capacidades emergentes» en IA genera inquietud? (Profundizando: Página 98)
- 24/19/23 Nuevo artículos-manifiestos sobre los riesgos de la IA (Extensión: Página 97)
- 31/10/23 Nuevas propuestas de regulaciones de la IA (Extensión: Página 125)
- 7/11/23 OpenIA anuncia una mejora de su GPT-4, ¡pero no un GPT-5! (Extensión: Página 125)
- 6/12/23 Google anuncia Gemini, un modelo generativo que mejora los resultados de GPT-4 (Extensión: Página 106)
- 8/12/23 Los Estados de la UE y el Parlamento Europeo llegar al primer acuerdo sobre la ley europea de la IA (Extensión: Página 123)
¿Qué son las «capacidades emergentes» de una IA generativa? (Profundizando: Páginas 78 y 98)
En el libro analizamos la evolución de la inteligencia artificial hasta alcanzar su capacidad actual para sostener diálogos con nosotros. ChatGPT es un claro ejemplo de ello, una herramienta que utiliza modelos de lenguaje, actuando esencialmente como una interfaz de chat sustentada por modelos como el GPT-3 o sus sucesores. Su destreza en la generación de texto coherente le permite ser empleado en una variedad de aplicaciones: traducción, redacción, generación de código, síntesis de textos y respuesta a preguntas, entre otras. Lo sorprendente es que GPT-3 no fue diseñado explícitamente para estos propósitos, pueden adquirir otras habilidades aparte de aquellas para las que fueron explícitamente capacitadas (página 78). A este fenómeno lo denominamos «capacidades emergentes» (página 98).
Hablar de «habilidades emergentes» hace referencia a capacidades que surgen espontáneamente en una IA, sin haber sido el objetivo principal de los desarrolladores de esta. Este fenómeno, recurrente en las IA generativas que discutimos en el libro, se hace evidente cuando estas inteligencias artificiales son utilizadas o interactúan en contextos específicos. Por ejemplo, una habilidad emergente puede ser la capacidad de un modelo de lenguaje para generar explicaciones coherentes en áreas del conocimiento no específicamente entrenadas. Estas IA revelan sus habilidades al ser usadas o al interactuar con ellas en contextos específicos. Estas destrezas se manifiestan debido al extenso conjunto de datos y patrones que los modelos han incorporado durante su fase de entrenamiento, sin que hayan sido programadas para tales tareas. Es esencial recordar que estas habilidades son fruto del aprendizaje del modelo basado en extensos y variados datos que durante el entrenamiento un modelo «lee».
No obstante, es vital subrayar que estas IA no realizan estas tareas mediante una verdadera comprensión como lo hacen los humanos; se basan en predicciones estadísticas según los patrones que han registrado de la observación de los datos.
¿Cómo se entrenan los modelos de lenguaje? (Profundizando: Página 77)
Para su entrenamiento, un modelo “lee” millones o miles de millones de documentos de texto utilizando una técnica llamada “enmascaramiento”. Se toma una oración, se oculta o “enmascara” una palabra, y luego se le pide al modelo que adivine cuál es la palabra que falta. Por ejemplo, en la frase “El gato persigue al ___”, el modelo podría tener que adivinar la palabra “ratón”.
Como los modelos de lenguaje son un tipo de red neuronal, el esquema de entrenamiento es equivalente al del ejemplo de la red neuronal del capítulo 3 que clasificaba imágenes según aparecía un gato, o no, en ella. En este caso, sabemos cuál es la solución que buscamos porque es precisamente la palabra que se le ha ocultado al programa. Finalmente, se compara el valor que ha calculado la red neuronal con el esperado para ajustar los valores de los parámetros de la red neuronal
Al repetir este proceso con una variedad inmensa de frases y contextos (aprendido de casi todo el contenido escrito disponible en la web), el modelo empieza a descubrir la estructura del lenguaje y el contexto de las palabras. A medida que va realizando un intenso entrenamiento, el modelo va mejorando su capacidad de predicción de la siguiente palabra, asignando unas probabilidades según el significado que «interprete» de las palabras en función de su contexto, y permitiendo de esta forma generar unos textos que parecen naturales y coherente a un humano.
¿Cómo conseguir un modelo de lenguaje para un ámbito específico? (Profundizando: Página 80)

¿Qué son los «modelos fundacionales» de los que se habla tanto? (Profundizando: Página 79)
Nos referimos con el término «modelos fundacionales» (foundation models en inglés) a los modelos en los que se basan las IA generativas actuales, como las presentadas en el libro; podríamos decir que es una forma más precisa de referenciarlas.
El tipo de datos que se utiliza para entrenar un modelo fundacional determina su «modo». Por ejemplo, los modelos de lenguaje son un tipo de modelo fundacional entrenado con datos de texto, mientras que los modelos de generación de imágenes se entrenan con datos de imágenes (combinados con texto). Un modelo fundacional multimodal es un modelo fundacional que se entrena utilizando múltiples tipos de datos.
Recordemos que estos modelos son entrenados con grandes cantidades y variedad de datos y con ello pueden adaptarse a una amplia variedad de tareas, pudiendo ser sistemas independientes o utilizarse como una «base» para otras aplicaciones. La mayoría de los modelos fundacionales se están desarrollando actualmente utilizando un tipo de red neuronal llamada transformer, presentada por primera vez por Google en 2017.
Profundizando: ¿Por qué la escalabilidad de las «capacidades emergentes» en IA genera inquietud? (Profundizando: Página 98)
En varias disciplinas, el término «emergencia» se utiliza para describir cómo un objeto de estudio adquiere propiedades que sus elementos constituyentes no tienen individualmente. Un ejemplo de esto es la teoría que considera la conciencia como una propiedad emergente de los cerebros biológicos. En el contexto de la inteligencia artificial, observamos un fenómeno similar con los modelos fundacionales. A medida que estos modelos se amplían, emergen nuevas capacidades no presentes en sus versiones más pequeñas. Esto genera inquietud, principalmente porque aún no comprendemos completamente la causa de la aparición de estas habilidades emergentes y desconocemos sus límites potenciales. Al escalar estos modelos – añadiendo más parámetros, entrenándolos con más datos y utilizando más poder computacional – no podemos predecir con certeza hasta dónde podrían evolucionar.
Además, la aparición de estas habilidades no es predecible ni gradual. A menudo, emergen abruptamente después de alcanzar un cierto número de parámetros. Esto representa un cambio significativo en el comportamiento general de una determinada IA generativa, un cambio impredecible cuando se trabaja con modelos a menor escala. Esto nos lleva a preguntarnos qué habilidades aún desconocidas podrían existir en sistemas de IA de gran escala. ¿Podría ser posible desarrollar estas IA hacia una inteligencia artificial general? Entre los grupos de investigación que exploran este fenómeno, se encuentra uno en el que participa Oriol Vinyals (a quien hemos mencionado en el libro varias veces) que cree que su generación verá una IA que iguale o supere a la del ser humano (página 100 del libro).
En parte afirmacines como esta se basan en que sus investigaciones sugieren que podríamos esperar más habilidades emergentes al ampliar las IA. Pero de momento es difícil predecir qué habilidades específicas emergerán y cuál será su alcance. Además, se ha observado que, en algunos casos, modelos más pequeños con arquitecturas de redes neuronales más avanzadas, con datos de mayor calidad o métodos de entrenamiento mejorados, pueden desarrollar capacidades similares. Por lo tanto, parece que la escala no es el único factor que contribuye a la emergencia de nuevas habilidades. Pero de momento la emergencia observada se está utilizando como motivación para aumentar el tamaño de los modelos de IA, el enfoque predominante en la actualidad como se ha presentado en el libro.
24/19/23 Nuevo artículos-manifiestos sobre los riesgos de la IA (Extensión: Página 97)
Autores destacados de la carta abierta titulada «Pause Giant AI Experiments» referenciada en la página 97, y autores como Geoffrey Hinton o Stuart Russell mencionados en el libro, han hecho público un nuevo artículo-manifiesto «Managing AI Risks in an Era of Rapid Progress». En un documento breve pero intenso, describen su visión de los riesgos de los próximos sistemas avanzados de IA (daños sociales a gran escala, usos maliciosos de la IA, sistemas autónomos de IA, etc.), y para su mitigación proponen prioridades urgentes para la I+D y la gobernanza de la IA.
31/10/23 Nuevas propuestas de regulaciones de la IA (Extensión: Página 125)
Estados Unidos quiere adelantarse a Europa en la regulación de la IA, su presidente Joe Biden acaba de firmar una orden ejecutiva con una regulación sobre Inteligencia Artificial que obliga a las tecnológicas a notificar al Gobierno de Estados Unidos cualquier avance en IA que suponga un «riesgo grave para la seguridad nacional». La orden completa se puede consultar desde este enlace. En la sección 4 Ensuring the Safety and Security of AI Technology indica que seran objeto de control «any model that was trained using a quantity of computing power greater than 1026 integer or floating-point operations» . Es decir, una vez más se corrobora que la IA es un poblema de supercomputación. Veremos cómo se aplicará esta regulación. Según acabo leer en Reuters, el Grupo de los Siete (G7) aprobará en las próximas horas un código de conducta, no vinculante, para las empresas encargadas de desarrollar sistemas avanzados de IA. Esta semana, los días 1 y 2 de noviembre, el Reino Unido organizará su Cumbre de Seguridad de la IA, que se espera que reúna a todo tipo de perfiles de diferentes países como Estados Unidos o China, con líderes de la industria, la sociedad civil y expertos. Según el primer ministro de UK, Rishi Sunak, es un intento de liderar la gestión de los riesgos de la IA a nivel internacional. ¡Veremos! Iremos informando.
7/11/23 OpenIA anuncia una mejora de su GPT-4, ¡pero no un GPT-5! (Extensión: Página 125)
OpenAI ha anunciado en su primer evento anual, en el que también participó Microsoft, un nuevo modelo GPT-4, GPT-4 Turbo, que está entrenado con datos hasta abril 2023 y acepta entradas de algunos centenares de páginas (es decir, permitirá resumir libros enteros), entre otras características importantes como permitir ser entrenado con datos propios y ponerlos al alcance de terceros a través de un portal propio para que los desarrolladores de aplicaciones que utilizan GPT puedan ofrecer sus productos al estilo de las App Stores, en este caso GPT Store. Pero ojo al dato, sin necesidad de programación, estamos hablando de crear agentes de IA (basados en ChatGPT) personalizados para diversos tipo de tareas específicas. Detalle de todo lo presentado se puede encontrar en este post de su blog.
6/12/23 Google anuncia Gemini, un modelo generativo que mejora los resultados de GPT-4 (Extensión: Página 106)
Google ha presentado Gemini, un avanzado modelo de IA generativa multimodal. Sundar Pichai ya había informado sobre este desarrollo en la conferencia anual de desarrolladores de Google I/O 2023. Dirigido conjuntamente por Jeff Dean y Oriol Vinyals, a quién frecuentemente citamos como referente en nuestro libro, el proyecto ha involucrado a un equipo masivo de aproximadamente 800 colaboradores, con el apoyo adicional de cerca de 200 personas más, según su informe técnico.
Gemini se compone de una familia de modelos en tres versiones: Ultra, Pro y Nano. Gemini Ultra, aún en revisión de seguridad y con disponibilidad prevista para principios de 2024, ha demostrado en pruebas de rendimiento superar a GPT-4. Gemini Pro, comparable quizás con GPT-3.5, está optimizado para ser más económico. Por su parte, Gemini Nano, el más pequeño de la serie, está diseñado para dispositivos móviles. Siguiendo la tendencia actual del sector, Google no ha revelado detalles específicos sobre el entrenamiento o la arquitectura de estos modelos (aparte de confirmar que se basan en Transformer). Se destaca que Gemini es nativamente multimodal, es decir, fue entrenado con diversos tipos de datos ya desde su inicio.
El informe técnico indica que, aunque Gemini Ultra supera a GPT-4 en la mayoría de las tareas de prueba, aún existen desafíos sin resolver como las alucinaciones, la comprensión causal o la deducción lógica. A pesar de su ventaja sobre GPT-4, Gemini no representa un gran salto significativo. En mi opinión, esto evidencia la dificultad de mejorar significativamente los modelos mediante los enfoques actuales basados en fuerza bruta, tema que abordamos en nuestro libro.
8/12/23 Los Estados de la UE y el Parlamento Europeo llegar al primer acuerdo sobre la ley europea de la IA (Extensión: Página 123)
Los 27 Estados de la UE y la Eurocámara han alcanzado un acuerdo provisional, superando diferencias clave, especialmente en cómo regular tecnologías de inteligencia artificial como GPT-4 y Gemini, y el uso de sistemas de vigilancia biométrica, como el reconocimiento facial. Aunque el texto detallado de la propuesta aún no se ha divulgado, los indicios apuntan a que los negociadores han logrado un consenso sobre la definición de riesgos, las excepciones necesarias, y las salvaguardias para proteger los derechos fundamentales de los ciudadanos europeos sin perjudicar la economía y la innovación, y considerando los intereses nacionales. Este acuerdo trilateral entre la Comisión Europea, el Parlamento Europeo, y los gobiernos europeos, iniciado en 2021, aún debe ser ratificado y se espera que entre en vigor hacia finales de 2026, aunque algunas disposiciones podrían aplicarse antes. Aunque considero que son buenas noticias, es prudente moderar la euforia, dada la envergadura del acuerdo y el hecho de que la UE está adoptando una regulación sobre la IA de forma independiente, separada de otros bloques económicos y geopolíticos. Esto es especialmente relevante dado que la mayoría de la innovación y desarrollo en este campo proviene de grandes empresas tecnológicas no europeas. En mi opinión, el próximo paso crucial tras este avance histórico es promover un acuerdo global sobre la regulación y el control de la IA, tal como se solicita ampliamente en el ámbito científico y tecnológico.
* Es cierto que hay muchos aspectos relacionados con la IA que no se abordaron en detalle en el libro, que tenía el propósito de ser un libro de lectura rápida y un enfoque generalista. Os confieso que cada revisión con el editor fue un ejercicio de síntesis. Estoy convencido de que la decisión fue acertada, ya que ha permitido acercar el contenido a un público amplio, y la respuesta hacia el libro ha sido abrumadoramente positiva. Aprovechando este espacio en mi página web, trataré de ahondar en aquellos aspectos del libro que perciba como de especial interés para los lectores.