Tecnología para un nuevo modelo de lenguaje

Google anunció una tecnología revolucionaria llamada CALM que acelera modelos de lenguaje grandes (como GPT-3 y LaMDA) sin comprometer los niveles de rendimiento.
Una fecha de entrenamiento más grande es mejor, pero tiene un precio
Los modelos de lenguaje grande (LLM) se entrenan en grandes cantidades de datos.
El entrenamiento de modelos de lenguaje en grandes cantidades de datos hace que el modelo aprenda nuevas capacidades que no siempre están previstas.
Por ejemplo, agregar más datos de entrenamiento a un modelo de idioma puede resultar inesperadamente en que adquiera la capacidad de traducir entre diferentes idiomas, aunque no haya sido entrenado para hacerlo.
Estas nuevas habilidades se denominan habilidades emergentes, habilidades que no necesariamente están planificadas.
Un trabajo de investigación diferente (PDF) con respecto a las habilidades emergentes establece:
"Aunque hay docenas de ejemplos de habilidades emergentes, actualmente hay pocas explicaciones convincentes de por qué tales habilidades aparecen de la forma en que lo hacen".
No pueden explicar por qué se aprenden diferentes habilidades.
Pero es bien sabido que aumentar la cantidad de datos para entrenar una máquina le permite adquirir más habilidades.
La desventaja de escalar los datos de entrenamiento es que se necesita más poder de cómputo para producir la salida, lo que hace que la IA sea más lenta en el momento en que genera la salida de texto (un punto llamado "tiempo de inferencia").
Entonces, la compensación de hacer que la IA sea más inteligente con más datos es que la IA también se vuelve más lenta durante la inferencia.
El nuevo trabajo de investigación de Google (Modelado de lenguaje adaptativo seguro PDF) describe el problema de la siguiente manera:
“Los avances recientes en modelos de lenguaje grande (LLM) basados en transformadores han llevado a mejoras de rendimiento significativas en muchas tareas.
Estas ganancias vienen con un aumento dramático en el tamaño del modelo, lo que puede conducir a un uso lento y costoso durante la inferencia”.
Modelado de lenguaje adaptativo seguro (CALM)
Los investigadores de Google han encontrado una solución interesante para acelerar los modelos de lenguaje manteniendo un alto rendimiento.
La decisión, por hacer una analogía, es algo así como la diferencia entre responder una pregunta fácil y resolver una más difícil.
Una pregunta simple como de qué color es el cielo puede responderse con un poco de reflexión.
Pero la respuesta difícil requiere que uno se detenga y piense un poco más para encontrar la respuesta.
Desde una perspectiva computacional, los grandes modelos de lenguaje no distinguen entre la parte difícil de la tarea de generación de texto y la parte fácil.
Generan texto tanto para las partes fáciles como para las difíciles, utilizando toda su potencia informática durante la inferencia.
La solución de Google se llama Modelado de lenguaje adaptable seguro (CALM).
Lo que hace este nuevo marco es asignar menos recursos a las partes triviales de una tarea de generación de texto y asignar todo el poder a las partes más difíciles.
El documento de investigación CALM establece el problema y la solución de la siguiente manera:
“Los avances recientes en modelos de lenguaje grande (LLM) basados en transformadores han llevado a mejoras de rendimiento significativas en muchas tareas.
Estas ganancias vienen con un aumento dramático en el tamaño del modelo, lo que puede conducir a un uso lento y costoso durante la inferencia.
En la práctica, sin embargo, la serie de generaciones realizadas por el LLM consta de diferentes niveles de dificultad.
Si bien ciertas predicciones se benefician de la capacidad total de los modelos, otras extensiones son más triviales y pueden resolverse con un cálculo reducido.
… Si bien los modelos grandes funcionan mejor en general, es posible que no se requiera la misma cantidad de cómputo para cada entrada para lograr un rendimiento similar (por ejemplo, dependiendo de si la entrada es fácil o difícil)”.
¿Qué es Google CALM y funciona?
CALM funciona mediante la asignación dinámica de recursos en función de la complejidad de una parte individual de la tarea, utilizando un algoritmo para predecir si algo necesita recursos totales o parciales.
El trabajo de investigación compartió que probaron el nuevo sistema en varias tareas de procesamiento de lenguaje natural ("resumen de texto, traducción automática y respuesta a preguntas") y descubrieron que podían acelerar la inferencia en aproximadamente un factor de tres (300%).
La siguiente ilustración muestra qué tan bien funciona el sistema CALM.
Las pocas áreas en rojo muestran dónde la máquina debería haber utilizado toda su capacidad para esa sección del trabajo.
Las áreas en verde son donde la máquina ha usado menos de la mitad de su capacidad.
Rojo = capacidad total/verde = menos de la mitad de la capacidad
Esto es lo que dice el trabajo de investigación sobre la ilustración anterior:
“CALM acelera la generación al salir temprano cuando sea posible y usar selectivamente la capacidad total del decodificador por solo unas pocas fichas, demostrado aquí en un ejemplo de CNN/DM con una medida de confianza basada en softmax. Y (1) temprano y Y (2) temprano utilizan diferentes umbrales de confianza para la salida anticipada.
Debajo del texto (sic), informamos el texto medido y la consistencia del riesgo de cada uno de los dos resultados, junto con las ganancias de eficiencia.
Los colores representan la cantidad de capas de decodificación utilizadas para cada token: los tonos de verde claro indican menos de la mitad del total de capas.
Solo unas pocas fichas seleccionadas usan la capacidad total del modelo (coloreadas en rojo), mientras que para la mayoría de las fichas el modelo sale después de una o más capas de decodificación (coloreadas en verde)”.
Los investigadores concluyen el documento señalando que la implementación de CALM requiere solo modificaciones mínimas para adaptar un modelo de lenguaje grande para que sea más rápido.
Esta investigación es importante porque abre la puerta a la creación de modelos de IA más sofisticados que se entrenan en conjuntos de datos significativamente más grandes sin experimentar velocidades más lentas y manteniendo un alto nivel de rendimiento.
Aún así, es posible que este método también beneficie a los modelos de lenguaje grandes que también se entrenan con menos datos.
Por ejemplo, los modelos InstructGPT, a los que ChatGPT es un modelo relacionado, se entrenan en aproximadamente 1300 millones de parámetros, pero aún pueden superar a los modelos que se entrenan en muchos más parámetros.
Los investigadores señalan en la conclusión:
"En general, nuestro marco computacional totalmente adaptativo para LM requiere modificaciones mínimas al modelo subyacente y permite ganancias de eficiencia al mismo tiempo que cumple con estrictas garantías de calidad de salida".
Esta información sobre este trabajo de investigación se acaba de publicar en el blog de IA de Google el 16 de diciembre de 2022. El trabajo de investigación en sí tiene fecha del 25 de octubre de 2022.
Será interesante ver si esta tecnología se abre camino en los principales modelos de lenguaje del futuro cercano.
Lea la publicación del blog de Google:
Acelere la generación de texto con Modelado de lenguaje adaptativo seguro (CALM)
Lea el artículo de investigación:
Modelado de lenguaje adaptativo seguro (PDF)
Imagen destacada de Shutterstock/Master1305
window.addEventListener( 'load', function() { setTimeout(function(){ striggerEvent( 'load2' ); }, 2000); });
window.addEventListener( 'load2', function() {
if( sopp != 'yes' && addtl_consent != '1~' && !ss_u ){
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'google-calm-a-new-language-model-technology', content_category: 'news seo' }); } });
Deja una respuesta