Innovación para la Transformación Digital en Educación

Resumen Presentación

Inteligencia Artificial: Modelos de lenguaje y como llegamos a CHAT GPT

Marcelo G. Mendoza R.
Pontificia Universidad Católica de Chile – Centro Nacional de Inteligencia Nacional – CENIA

¿Qué son los grandes modelos de lenguaje (LLM en inglés)? y ¿cómo llegamos a Chat GPT?

Marcelo introduce el concepto de “neurona artificial”. Esta es una simplificación inspirada en la biología que imita el comportamiento de una neurona real. Aunque es un mecanismo rudimentario comparado con la complejidad de las neuronas biológicas, ha sido fundamental en el desarrollo de la inteligencia artificial.
Resalta que al combinar múltiples neuronas artificiales, es posible lograr tareas más sofisticadas, como descifrar códigos.
Menciona una reunión histórica en 1956, en la que participaron figuras destacadas como Minsky y Pappert, quienes fueron pioneros en el desarrollo de la primera red neuronal artificial. Durante esta reunión, se acuñó el término “inteligencia artificial”.
A medida que avanzó la capacidad de cómputo, fue posible agregar más unidades básicas a las redes neuronales artificiales, permitiendo abordar tareas más complejas.
Marcelo destaca la aparición de dos grandes líneas en el campo de la IA:
Inteligencia Artificial Simbólica (IA simbólica): Se centra en imitar las capacidades deductivas humanas. Esta rama de la IA intenta emular el proceso deductivo del razonamiento humano, partiendo de ciertas premisas y aplicando reglas de inferencia para determinar el valor de verdad de una afirmación.
Inteligencia Artificial Conexionista: Es la que se basa en redes neuronales artificiales.
La Inteligencia Artificial Conexionista se basa en unidades simples, las neuronas artificiales, que procesan datos. Estas neuronas reciben datos, procesan la información y generan una salida.
Se menciona la primera red neuronal artificial creada: la red neuronal de Rosenblatt en 1958. Esta red era capaz de distinguir diferentes objetos.
Explica el funcionamiento básico de una red neuronal: toma entradas o señales y genera una salida. Esta salida puede representar un plano en un espacio de representación que separa objetos con características distintas. La red neuronal analiza las características de los objetos en su entrada y, en función de eso, proporciona una salida que indica una clasificación o caracterización de esos objetos.
Las redes neuronales, en sus inicios, estaban diseñadas para realizar tareas de reconocimiento de patrones. Por ejemplo, al proporcionarle características específicas, la red podría diferenciar entre un perro y un gato.
Marcelo habla sobre lo que se conoce como la “primera ola de la inteligencia artificial”. Había optimismo inicial porque se creía que con mecanismos como el de Rosenblatt, se podría avanzar significativamente en la IA, llegando a realizar razonamiento simbólico y dotar a las máquinas de habilidades avanzadas de razonamiento matemático.
Sin embargo, se encontraron con desafíos. Se dieron cuenta de que muchos problemas eran mucho más complejos de lo que se pensaba inicialmente y que no era fácilmente factible abordarlos con los mecanismos existentes.
Tras las dificultades iniciales en la IA, hubo una percepción general de que la inteligencia artificial había alcanzado su límite y que no habría avances significativos en el futuro.
Sin embargo, con el tiempo, la capacidad de cómputo aumentó. En la década de 1980, se produjo una revolución tecnológica con la llegada de la computación personal. Los computadores comenzaron a estar presentes en los hogares y en los lugares de trabajo.
Marcelo describe la evolución de la computación, mencionando cómo anteriormente la arquitectura predominante era cliente-servidor. En este modelo, existía un computador principal o “servidor” en un lugar distante, y los usuarios accedían a él a través de terminales sin capacidad de cómputo propia. Este concepto es similar al de la computación en la nube actual, donde la capacidad de cómputo se encuentra en servidores remotos y los usuarios acceden a través de dispositivos locales.
Con la llegada de la computación personal en los años 80, se desencadenó una revolución de transformación digital, haciendo que los computadores se integraran en la vida diaria de las personas, tanto en hogares como en oficinas.
Durante este período, Geoffrey Hinton, a quien Marcelo considera una figura esencial en el desarrollo de la inteligencia artificial, realizó avances significativos en el campo de las redes neuronales.
Hinton, junto con otros investigadores, desarrolló el algoritmo de retro-propagación. Este algoritmo es fundamental para las redes neuronales, ya que permite que una red, después de tomar una entrada y generar una salida, pueda aprender y ajustarse basándose en errores o diferencias entre la salida esperada y la obtenida.
Explica que en esencia, una red neuronal busca aproximar una función no lineal. Esta función toma múltiples variables de entrada y genera variables de salida, siendo las primeras variables independientes y las segundas dependientes de lo que se le muestra a la red.
Con el algoritmo de retro-propagación, una red neuronal puede aprender a partir de ejemplos proporcionados. Marcelo describe un proceso donde, si se le muestra a la red una imagen de un perro, se espera que la red identifique correctamente la imagen. Si la red hace una predicción correcta, se ajustan positivamente sus pesos (parámetros internos). Si comete un error, estos pesos se modifican para corregir el error. Esencialmente, el algoritmo ajusta la función de transferencia de la red en función de sus predicciones y los errores cometidos.
Marcelo enfatiza que el algoritmo de retro-propagación es un mecanismo de aprendizaje automático. Al exponer a la red neuronal a numerosos ejemplos, esta es capaz de ajustar su función de transferencia para que, dadas ciertas entradas, genere las salidas esperadas.
Este algoritmo es fundamental en lo que se denomina la “segunda ola de la inteligencia artificial”. A partir de este avance, fue posible abordar problemas más complejos en el campo de la IA. Durante los años 90, se desarrollaron sistemas de apoyo a la toma de decisiones basados en esta tecnología, así como mecanismos para el reconocimiento de dígitos, firmas y otros.
Posteriormente, surge otra corriente en la inteligencia artificial conocida como la “Escuela Vallesiana”, que adopta un enfoque más deductivo en el desarrollo y aplicación de IA.
Las redes neuronales alcanzaron cierto nivel de desarrollo hasta el año 2012, cuando se introdujo una arquitectura innovadora de red neuronal profunda. Estas redes, caracterizadas por tener múltiples capas, permiten un procesamiento más detallado de los datos de entrada.
Marcelo menciona “AlexNet”, una arquitectura de red neuronal profunda que fue pionera en el reconocimiento de imágenes. Fue entrenada con una vasta base de datos compuesta por millones de imágenes, dotando a la máquina de la capacidad de reconocer diferentes objetos a partir de estas imágenes.
Paralelamente al desarrollo de AlexNet, surgió un primer modelo de procesamiento de lenguaje. Este modelo es capaz de tomar texto como entrada y procesarlo para obtener diversas salidas.
Con el desarrollo de modelos de lenguaje, las redes neuronales empezaron a aprender representaciones de texto y, basándose en ello, a generar texto. Aunque al principio esta generación fue rudimentaria, eventualmente evolucionó a modelos más avanzados como chat GPT.
Marcelo destaca dos factores cruciales para este avance significativo en la IA:
La proliferación de datos en la web, como Wikipedia y BookCorpus, proporcionó una vasta cantidad de información para entrenar modelos más grandes y complejos.
La capacidad de construir redes neuronales artificiales más grandes y complejas gracias a la disponibilidad de estos datos. Estos modelos se entrenaban mostrándoles mucho texto y luego generando texto en función de lo aprendido.
Una tarea esencial para entrenar los modelos básicos de lenguaje es la “completación de texto”. En esta tarea, se muestra a la red una oración con algunas palabras faltantes, y se le pide que complete la oración.
Marcelo resalta la capacidad de aprendizaje de los modelos base. Al mostrarles mucho texto, estas redes realizan un aprendizaje estocástico, lo que significa que tienen mecanismos para muestrear y predecir las palabras que generarán.
Si se expone a una máquina a grandes cantidades de texto mediante este procedimiento, aprenderá a generar textos que son relativamente coherentes y que imitan los textos que se le han mostrado. Sin embargo, estos textos no ofrecerán ideas nuevas o “fuera de la caja”.
El gran volumen de datos disponible y el aumento del poder de cómputo permitieron la construcción de redes neuronales más grandes y complejas.
Destaca la complejidad de las redes neuronales modernas, mencionando que algunas tienen miles de millones de parámetros. Esto hace que la función de transferencia de una red como GPT sea extremadamente compleja.
Para ilustrar, compara una función de transferencia simple, como una recta con solo dos parámetros (A y B), con la función de transferencia de GPT que tiene miles de millones de parámetros. Esta complejidad hace que sea muy difícil visualizar y entender completamente lo que la red está haciendo.
Marcelo señala que, debido a la vasta cantidad de parámetros, es desafiante discernir lo que la máquina realmente ha aprendido. Existe una rama entera de la inteligencia artificial dedicada a abordar este problema: entender qué ha aprendido exactamente una máquina.
Presenta una línea de tiempo condensada de los hitos más relevantes en el desarrollo de la inteligencia artificial:
Primeras redes neuronales
Perceptron para reconocimiento de objetos en dos clases
Algoritmo de retro-propagación
Redes neuronales profundas
Modelos de procesamiento de lenguaje
Describe las distintas áreas dentro de la inteligencia artificial, incluyendo el aprendizaje de máquinas, el procesamiento del lenguaje natural, el aprendizaje profundo y los modelos de lenguaje a gran escala.
Ofrece una definición de inteligencia artificial: es un campo de la ciencia de la computación dedicado a crear sistemas capaces de realizar tareas que, por lo general, requieren inteligencia humana. Estas tareas abarcan el aprendizaje adaptativo, el reconocimiento de voz, la planificación, entre otras.
Explica que hay dos tipos principales de inteligencia artificial: inteligencia artificial fuerte e inteligencia artificial débil.
La inteligencia artificial fuerte posee capacidades de razonamiento generales para abordar problemas nuevos.
La inteligencia artificial débil asume que la máquina es capaz de abordar problemas que ya conoce. No puede aprender a resolver problemas totalmente nuevos por sí misma.
Marcelo menciona que, aunque se cree que estamos cerca de tener una inteligencia artificial fuerte, todavía no hemos alcanzado ese nivel.
Usa el ejemplo de ChatGPT para ilustrar que, si bien es un sistema avanzado, no es una inteligencia artificial fuerte, ya que tiene capacidades limitadas para aprender y resolver tareas completamente nuevas. Sin embargo, ChatGPT es un ejemplo prominente de inteligencia artificial débil, pues es eficiente en abordar y resolver problemas que ya conoce o ha sido entrenado para manejar.
Aborda la eficiencia de ChatGPT, destacando que el modelo es muy competente en redacción. Afirma que si no hubiera especificado que ciertas definiciones provenían de ChatGPT, es probable que la audiencia no lo hubiera notado. Este es un testimonio de cómo las máquinas han aprendido a redactar de manera coherente.
A pesar de los avances, Marcelo señala que las máquinas, como ChatGPT, todavía tienen limitaciones y pueden cometer errores.
Marcelo toca el tema de la inteligencia, indicando que es un concepto amplio que podría ser el tema de una charla por sí solo. Sin embargo, decide centrarse en el lenguaje y cita a Alan Turing, quien propuso una aproximación para entender el concepto de inteligencia artificial desde la perspectiva del lenguaje.
Marcelo detalla más sobre la perspectiva de Turing en relación con la inteligencia artificial y el lenguaje:
Presenta el concepto del “Test de Turing”: Imagina dos cubículos, A y B. En el cubículo A hay una máquina, y en el B hay una persona. Ambos pueden comunicarse a través de pequeñas ventanillas que solo permiten intercambiar texto. Si una tercera persona, C, hace preguntas a ambos (A y B) y no puede distinguir cuál es la máquina basándose en las respuestas, entonces se dice que la máquina ha pasado el test.
Según este criterio, si la persona C no puede distinguir entre la máquina y el humano
basándose únicamente en el lenguaje, se considera que la máquina es tan inteligente, desde el punto de vista del lenguaje, como el humano.
Marcelo destaca que ChatGPT ha superado el Test de Turing. En pruebas realizadas, es muy difícil para los humanos discernir entre un texto generado por una máquina, como GPT, y uno escrito por un ser humano.
Explica que los modelos de lenguaje pertenecen al ámbito del aprendizaje profundo, que se basa en redes neuronales artificiales con muchas capas. Estos modelos se entrenan tomando grandes cantidades de datos.
Describe el proceso de entrenamiento de un modelo: los datos de entrada se procesan a través de un algoritmo (la máquina) para generar un modelo, que es esencialmente una red neuronal con múltiples capas.
Ilustra la estructura de una red neuronal, destacando las capas de entrada, las capas intermedias con múltiples conexiones y la capa de salida. Menciona que la entrada puede tener muchas variables y, de manera similar, la salida puede tener múltiples unidades.

Innovación para la Transformación Digital en Educación

Resumen Presentación

Inteligencia Artificial: Modelos de lenguaje y como llegamos a CHAT GPT

Marcelo G. Mendoza R.Pontificia Universidad Católica de Chile – Centro Nacional de Inteligencia Nacional – CENIA

Marcelo G. Mendoza R.
Pontificia Universidad Católica de Chile – Centro Nacional de Inteligencia Nacional – CENIA