Autor: José Luis Mateos – Director de Transformación Digital en Honne Services
El 30 de noviembre de 2022 es un día que marcó un hito en la historia de la inteligencia artificial y en la historia de la tecnología y la innovación. Ese día se anunció el ahora bien conocido chatGPT por parte de la empresa OpenAI. Pero revisemos brevemente este acontecimiento, cómo se llegó a ello y porqué es tan importante.
La inteligencia artificial generativa se refiere a la generación de texto usando IA basada en redes neuronales profundas. Habría que empezar diciendo que el primer chatbot se implementó en el Instituto Tecnológico de Massachussets (MIT) en 1966, hace más de medio siglo. Se llamaba ELIZA y simulaba ser un terapeuta o psicólogo, estableciendo un diálogo con el usuario. El desarrollo de lenguajes de programación y computadoras que procesan textos se desarrolló desde entonces con avances notables, dando por sentado un campo de la IA llamado Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). En este campo se procesan palabras, no solo números, y se generan textos a partir de algoritmos matemáticos. El lenguaje natural se refiere, por ejemplo, al español, inglés, francés, etc.
En 2017, investigadores en Google, publicaron un artículo que proponía una nueva arquitectura para una red neuronal para modelar secuencias de palabras. Se le llamó Transformer, y esta arquitectura superó rápidamente a las redes neuronales recurrentes en la traducción de textos, tanto en la calidad de la traducción como en el costo de entrenamiento de la red neuronal. Estos avances provocaron el surgimiento de uno de los Transformers más conocidos ahora: el GPT, cuyas siglas en inglés significan Generative Pretrained Transformer. Desde el lanzamiento del GPT, toda una zoología de grandes modelos de lenguaje (LLMs) empezaron a surgir por parte de diversos grupos de investigación en varias empresas. El primer GPT surge en 2018 por parte de la empresa OpenAI en California, Estados Unidos. Consistía en una red neuronal con 117 millones de parámetros (el número de parámetros está relacionado al número de conexiones entre neuronas en la red). En 2019, surge GPT-2 con 1,500 millones de parámetros, y en mayo de 2020, introducen el GPT-3 con 175 mil millones de parámetros. Para entonces, otras compañías, además de OpenAI, empezaban a liberar algunos de sus modelos LLM que habían estado desarrollando en los últimos años; empresas tan importantes como Google, Meta, y otras. En 2021, Google libera LaMDA (Language Model for Dialogue Applications), en 2022 PaLM (Pathways Language Model), y en 2023 Bard.
Como podemos ver entonces, antes de noviembre de 2022, existían ya la IA generativa y los grandes modelos de lenguaje (LLM). Sin embargo, todos estos importantes desarrollos, aunque eran bien conocidos y apreciados por los expertos en el campo del procesamiento del lenguaje natural (NLP), no eran del dominio público. Es solo hasta que el 30 de noviembre de 2022 se anuncia el famoso chatGPT. Lo que cautivó la atención, entre otras cosas, fue la facilidad para usar este poderoso instrumento. Por primera vez en la historia, podíamos interaccionar directamente con una computadora simplemente escribiendo un texto en inglés, español o cualquier otro idioma, incluso con faltas de ortografía y ausencia de signos de puntuación. Los resultados que se obtenían sorprendieron inclusive a los expertos y a los propios desarrolladores que habían hecho posible esta tecnología. Con un breve texto como input en el prompt de la computadora, se generaba en unos cuantos segundos un texto de varias cuartillas perfectamente coherente y con una gramática y sintaxis impecables. Era una auténtica revolución. Por primera vez teníamos al alcance de nuestros dedos la posibilidad de interaccionar directamente con una máquina que nos respondía en nuestro propio idioma, que podría generar textos como si se tratara de una persona empática, generosa y sensible. ¿Cómo era posible esto? Resulta que esta red neuronal estaba entrenada con millones de textos de múltiples temas. Era como tener a la mano la capacidad de explorar una biblioteca gigantesca que contiene todo el conocimiento humano. Y no solo textos, sino que ahora con GPT-4 podemos usar como input y output, imágenes, videos y audio. Esto último ha permitido el surgimiento de arte y diseño usando la IA.
Esto es solo la punta del iceberg. Las implicaciones de este nuevo desarrollo son enormes. Estamos entrando a una nueva era en la cual los humanos y las máquinas podemos trabajar en equipo para alcanzar alturas insospechadas.
En próximos Insights continuaremos explorando muchas de las opciones que se nos irán abriendo para aplicar esta fascinante tecnología.
Dr. José Luis Mateos Trigos, físico mexicano, doctorado en Ciencias (Física) de la UNAM, posdoctorado en la Universidad de Northeastern. Investigador, coordinador de investigación, premiado autor y divulgador científico. Director de Transformación Digital en Honne Services.