La revelación del nuevo modelo de inteligencia artificial, GPT-4o, por OpenAI, ha dejado a la comunidad tecnológica expectante y emocionada. Esta última incorporación a la familia GPT es una mejora significativa con respecto a su predecesor, presentando un salto excepcional en la interacción de voz con inteligencia artificial.
Mira Murati, CTO de OpenAI, fue quien inicialmente compartió los detalles de lo que el equipo había estado preparando. Sin embargo, fue a través de las live demos, en las que se unieron a Murati Mark Chen y Barret Zoph, donde realmente pudimos apreciar el avance cualitativo que representa esta nueva generación en la interacción por voz.
La «o» en el nombre del nuevo modelo, GPT-4o, se refiere a «omni», lo que sugiere un nivel de competencia notable, tanto para la entrada como para la salida, con texto, voz e imagen. Así, OpenAI ha categorizado este modelo como omnimodal, lo que indica su capacidad para manejar una amplia variedad de medios de comunicación.
La posibilidad de una interacción más natural entre humanos y la inteligencia artificial es una de las promesas más emocionantes de GPT-4o. De hecho, el alto grado de competencia que el modelo demuestra en su capacidad para interactuar con texto, voz e imagen es un objetivo claro de OpenAI.
La presentación de GPT-4o ha generado un gran entusiasmo entre aquellos interesados en la inteligencia artificial. Las conversaciones entre Chen, Murati y Zoph con OpenAI nos dejaron a muchos de nosotros asombrados y sin duda deseando probar todas las capacidades de GPT-4o en ChatGPT lo antes posible.
La analogía utilizada con frecuencia para ilustrar las capacidades de GPT-4o es la película «Her», de Spike Jonze. En esta película, una inteligencia artificial, diseñada inicialmente como la interfaz de un sistema operativo, evoluciona hasta enamorarse de su usuario, interpretado por Joaquin Phoenix, que también se enamora de ella.
Aunque la interacción por voz de GPT-4o es impresionante, la relación en «Her» va más allá de las interacciones simples. En la película, la relación entre Samantha y Theodore se basa en un conocimiento profundo y mutuo, una característica que todavía falta en GPT-4o.
Sin embargo, muchas personas seguramente intentarán emular, en cierto modo, la relación entre Samantha y Theodore cuando OpenAI comience a implementar GPT-4o en ChatGPT. Aunque ChatGPT ya tiene cierta memoria, pronto se harán evidentes las primeras lagunas, lo que sugiere que la herramienta puede ser útil para simular una interacción, pero no una relación con el nivel de profundidad representado en la película.
Sin embargo, un modelo con estas capacidades y limitaciones podría ser excepcionalmente útil en la evolución de los asistentes de voz actuales. Hace solo unos días, se supo que Apple y OpenAI están a punto de firmar una colaboración, y se sabe que uno de los principales objetivos de Apple es renovar en profundidad su asistente de voz, Siri.
Esto es pura especulación, y hay muchas razones para pensar que no sucederá, o al menos no al nivel que vimos en las demos de GPT-4o. Sin embargo, Apple ha estado adelantando durante meses que este WWDC 2024 nos sorprenderá con sus avances en inteligencia artificial, y todo apunta a que Siri estará en la lista de cambios que están por llegar. Por lo tanto, GPT-4o puede tener cierta similitud con «Her», pero a lo que realmente apunta, o al menos debería hacerlo, es a Siri.