Transformador preentrenado generativo-4 (GPT-4)
Descripción general
- El día de Pi (14/03/2023), OpenAI presentó su último modelo GPT, GPT-4, que cuenta con una interfaz multimodal que recibe imágenes y textos y emite una respuesta de texto.
- GPT-4 se entrenó en un gran conjunto de datos de texto de Internet y se ajustó con RLHF.
- El Informe técnico de GPT-4 nos da una idea de cómo funciona GPT-4 y sus capacidades, y eso es lo que explico a continuación.
Capacidades de GPT-4
- Hagamos un repaso rápido de GPT:
- Durante el entrenamiento previo, el modelo se entrena para predecir la siguiente palabra en una secuencia de texto dadas las palabras anteriores.
- Una vez que el modelo está preentrenado, se puede ajustar en una tarea específica agregando algunas capas específicas de la tarea encima del modelo preentrenado y entrenándolo en un conjunto de datos más pequeño que sea específico para la tarea.
- Si bien el documento carece de detalles técnicos sobre GPT-4, aún podemos llenar los vacíos con información que conocemos.
- Como dice el documento, «GPT-4 es un modelo de estilo Transformer entrenado previamente para predecir el próximo token en un documento, utilizando datos disponibles públicamente (como datos de Internet) y datos con licencia de proveedores externos». (fuente)
- Al igual que sus modelos anteriores, fue entrenado para predecir la siguiente palabra en un documento oa partir de datos disponibles públicamente.
- Otra información que obtenemos de este análisis técnico es que GPT-4 utiliza el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) de forma muy similar a como lo ha hecho InstructGPT .
- GPT-4 usa RLHF para «alinear» estrechamente la intención del usuario para una entrada determinada y ayuda a facilitar la confianza y la seguridad en sus respuestas.
- La siguiente tabla (obtenida del documento) muestra cómo se desempeña GPT-4 en una variedad de pruebas:
- Además, al igual que sus predecesores, GPT-4 puede trabajar con varios idiomas y traducir entre ellos.
- Según la demostración , parece que la capacidad de codificación de GPT se ha reforzado significativamente en comparación con sus predecesores.
- Ahora veamos algunos ejemplos relacionados con la entrada visual (fuente) :
- Si bien no tenemos detalles sobre la arquitectura visual, podemos ver que puede tomar la imagen y ejecutar cualquiera de las dos tareas:
- Si la imagen es un papel o contiene texto, puede convertir la imagen en texto, proceder a comprender el contexto y finalmente devolver una respuesta.
- De lo contrario, si la imagen solo contiene objetos y no texto, aún puede recopilar información y devolver una respuesta, probablemente aún con el uso de NLP y contexto de lenguaje.
GPT-4 vs GPT-3
- Exploremos ahora las formas en que GPT-4 se diferencia de GPT-3, incluida su capacidad para realizar tareas con las que GPT-3 tuvo problemas, así como las características técnicas que lo hacen más robusto.
- En la demostración proporcionada por Greg Brockman, presidente y cofundador de OpenAI, la primera tarea en la que GPT-4 superó a su predecesor fue la recapitulación.
- Específicamente, GPT-4 puede resumir un corpus con requisitos más complejos, por ejemplo, «Resumir este artículo pero con todas las palabras que comienzan con una letra ‘G'».
- En cuanto al uso del modelo como asistente de codificación, ahora no solo puede pedirle que escriba código para una tarea específica, sino también copiar y pegar cualquier error que el código pueda causar sin ningún contexto y el modelo puede comprender y hacer las correcciones de código.
- Una de las tareas más geniales que GPT-4 pudo realizar fue tomar un plano de un sitio web, dibujarlo a mano en un cuaderno, y fue capaz de construir todo el sitio web en cuestión de minutos, como muestran las imágenes a continuación (fuente ) :
- Además, el modelo ahora puede rendir muy bien en los exámenes académicos. Esto muestra cuánto han mejorado los modelos de lenguaje en las capacidades generales de razonamiento.
- “Por ejemplo, aprueba un examen de barra simulado con una puntuación de alrededor del 10 % superior de los examinados; en contraste, el puntaje de GPT-3.5 estuvo alrededor del 10% inferior”. (fuente)
- GPT supera a los modelos de última generación anteriores en otros exámenes estandarizados, como: GRE, SAT, BAR, AP y otros puntos de referencia de investigación como: MMLU, HellaSWAG y TextQA (fuente ) .
- Ahora, veamos los detalles técnicos de cómo GPT-4 ha superado a sus predecesores.
- GPT-4 es capaz de manejar un contexto de entrada que consta de 8192 a 32 000 palabras de texto, lo que significa que permite un mayor rango de contexto (~50 páginas como máximo).
- La imagen a continuación (fuente) muestra GPT-4 en puntos de referencia tradicionales para modelos de aprendizaje automático y puede superar a los modelos existentes, así como a la mayoría de los modelos SOTA en la mayoría de los puntos de referencia.
Limitaciones
- GPT-4, al igual que sus predecesores, todavía alucina hechos y comete errores en términos de razonamiento, por lo tanto, la salida debe verificarse antes de que se use a partir de estos modelos.
- Al igual que ChatGPT, GPT-4 carece de conocimiento de los eventos que ocurrieron después de la fecha de corte de datos, que es septiembre de 2021.
Caso de uso: motor de búsqueda multimodal
- A diferencia de los modelos anteriores de la familia GPT, tenemos muchos menos detalles técnicos sobre GPT-4, posiblemente porque es lo que impulsa a Bing, como se confirma a continuación.
El presente artículo Redes neuronales transformadoras, fue adaptado y traducido del articulo original de aman.ai