La era de los transformadores preentrenados generativos, como GPT-4, ha llegado, cambiando para siempre la forma en que entendemos y aplicamos la inteligencia artificial en nuestra vida diaria. En este artículo, nos sumergimos en el fascinante mundo de estos modelos de vanguardia, explorando cómo están revolucionando campos tan diversos como la medicina, el derecho y la creatividad, y planteándonos preguntas fundamentales sobre el futuro de la colaboración entre humanos y máquinas.

Descripción general

  • El día de Pi (14/03/2023), OpenAI presentó su último modelo GPT, GPT-4, que cuenta con una interfaz multimodal que recibe imágenes y textos y emite una respuesta de texto.
  • GPT-4 se entrenó en un gran conjunto de datos de texto de Internet y se ajustó con RLHF.
  • El Informe técnico de GPT-4 nos da una idea de cómo funciona GPT-4 y sus capacidades, y eso es lo que explico a continuación.

Capacidades de GPT-4

  • Hagamos un repaso rápido de GPT:
    • Durante el entrenamiento previo, el modelo se entrena para predecir la siguiente palabra en una secuencia de texto dadas las palabras anteriores.
    • Una vez que el modelo está preentrenado, se puede ajustar en una tarea específica agregando algunas capas específicas de la tarea encima del modelo preentrenado y entrenándolo en un conjunto de datos más pequeño que sea específico para la tarea.
  • Si bien el documento carece de detalles técnicos sobre GPT-4, aún podemos llenar los vacíos con información que conocemos.
  • Como dice el documento, «GPT-4 es un modelo de estilo Transformer entrenado previamente para predecir el próximo token en un documento, utilizando datos disponibles públicamente (como datos de Internet) y datos con licencia de proveedores externos». (fuente)
  • Al igual que sus modelos anteriores, fue entrenado para predecir la siguiente palabra en un documento oa partir de datos disponibles públicamente.
  • Otra información que obtenemos de este análisis técnico es que GPT-4 utiliza el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) de forma muy similar a como lo ha hecho InstructGPT .
  • GPT-4 usa RLHF para «alinear» estrechamente la intención del usuario para una entrada determinada y ayuda a facilitar la confianza y la seguridad en sus respuestas.
  • La siguiente tabla (obtenida del documento) muestra cómo se desempeña GPT-4 en una variedad de pruebas:

  • Además, al igual que sus predecesores, GPT-4 puede trabajar con varios idiomas y traducir entre ellos.
  • Según la demostración , parece que la capacidad de codificación de GPT se ha reforzado significativamente en comparación con sus predecesores.
  • Ahora veamos algunos ejemplos relacionados con la entrada visual (fuente) :

  • Si bien no tenemos detalles sobre la arquitectura visual, podemos ver que puede tomar la imagen y ejecutar cualquiera de las dos tareas:
    • Si la imagen es un papel o contiene texto, puede convertir la imagen en texto, proceder a comprender el contexto y finalmente devolver una respuesta.
    • De lo contrario, si la imagen solo contiene objetos y no texto, aún puede recopilar información y devolver una respuesta, probablemente aún con el uso de NLP y contexto de lenguaje.

GPT-4 vs  GPT-3

  • Exploremos ahora las formas en que GPT-4 se diferencia de GPT-3, incluida su capacidad para realizar tareas con las que GPT-3 tuvo problemas, así como las características técnicas que lo hacen más robusto.
  • En la demostración proporcionada por Greg Brockman, presidente y cofundador de OpenAI, la primera tarea en la que GPT-4 superó a su predecesor fue la recapitulación.
    • Específicamente, GPT-4 puede resumir un corpus con requisitos más complejos, por ejemplo, «Resumir este artículo pero con todas las palabras que comienzan con una letra ‘G'».
  • En cuanto al uso del modelo como asistente de codificación, ahora no solo puede pedirle que escriba código para una tarea específica, sino también copiar y pegar cualquier error que el código pueda causar sin ningún contexto y el modelo puede comprender y hacer las correcciones de código.
  • Una de las tareas más geniales que GPT-4 pudo realizar fue tomar un plano de un sitio web, dibujarlo a mano en un cuaderno, y fue capaz de construir todo el sitio web en cuestión de minutos, como muestran las imágenes a continuación (fuente ) :

  • Además, el modelo ahora puede rendir muy bien en los exámenes académicos. Esto muestra cuánto han mejorado los modelos de lenguaje en las capacidades generales de razonamiento.
  • “Por ejemplo, aprueba un examen de barra simulado con una puntuación de alrededor del 10 % superior de los examinados; en contraste, el puntaje de GPT-3.5 estuvo alrededor del 10% inferior”. (fuente)

  • GPT supera a los modelos de última generación anteriores en otros exámenes estandarizados, como: GRE, SAT, BAR, AP y otros puntos de referencia de investigación como: MMLU, HellaSWAG y TextQA (fuente ) .

  • Ahora, veamos los detalles técnicos de cómo GPT-4 ha superado a sus predecesores.
  • GPT-4 es capaz de manejar un contexto de entrada que consta de 8192 a 32 000 palabras de texto, lo que significa que permite un mayor rango de contexto (~50 páginas como máximo).
  • La imagen a continuación (fuente) muestra GPT-4 en puntos de referencia tradicionales para modelos de aprendizaje automático y puede superar a los modelos existentes, así como a la mayoría de los modelos SOTA en la mayoría de los puntos de referencia.

Limitaciones

  • GPT-4, al igual que sus predecesores, todavía alucina hechos y comete errores en términos de razonamiento, por lo tanto, la salida debe verificarse antes de que se use a partir de estos modelos.
  • Al igual que ChatGPT, GPT-4 carece de conocimiento de los eventos que ocurrieron después de la fecha de corte de datos, que es septiembre de 2021.

Caso de uso: motor de búsqueda multimodal

  • A diferencia de los modelos anteriores de la familia GPT, tenemos muchos menos detalles técnicos sobre GPT-4, posiblemente porque es lo que impulsa a Bing, como se confirma a continuación.

El presente artículo Redes neuronales transformadoras, fue adaptado y traducido del articulo original de aman.ai