Google TurboQuant señala un avance del código campechano en la eficiencia de LLM -

El ángulo del código campechano surge cuando TurboQuant de Google promete recortaduras de memoria 6X LLM e inferencias más rápidas para una IA escalable

TurboQuant de Google podría remodelar la eficiencia de LLM con un economía de memoria 6 veces decano y velocidades más rápidas, posicionándose como un avance potencial para la implementación de IA abierta y escalable, si el ecosistema lo adopta.

Una nueva técnica de cuantificación de Google, TurboQuant, se está posicionando como un catalizador potencial para el ecosistema de IA de código campechano, incluso sin un divulgación notorio confirmado. El método comprime la elegancia KV del maniquí de idioma extenso (LLM) a 3,5 bits por canal, lo que ofrece una reducción de memoria de casi 6 veces, velocidades de inferencia más rápidas y lo que los investigadores describen como “neutralidad de calidad absoluta” en comparación con resultados de precisión total.

Las implicaciones son inmediatas. La elegancia KV sigue siendo un importante cuello de botella de la memoria de la GPU en la inferencia de LLM. Al compendiar drásticamente esta huella, TurboQuant podría permitir más usuarios simultáneos en el mismo hardware, compendiar significativamente los costos de infraestructura y mejorar la latencia en chatbots, asistentes de codificación, sistemas de búsqueda e implementaciones perimetrales.

Técnicamente, TurboQuant introduce un proceso de dos etapas. Aplica rotación aleatoria y cuantificación prosperar para remodelar la distribución de datos, seguida de una transformación cuantificada de Johnson-Lindenstrauss (QJL) de 1 bit para corregir errores residuales y eliminar el sesgo del producto interno. El enfoque se friso en técnicas anteriores como QJL y PolarQuant, combinando una cuantificación sin sobrecarga con una transformación vectorial apto.

En comparación con métodos anteriores como KIVI, que logra una compresión de 2 bits pero sufre una pérdida de precisión, TurboQuant mantiene la fidelidad de salida y elimina la sobrecarga de almacenamiento.

Si se integra en marcos como PyTorch, TensorFlow o ecosistemas como Hugging Face y apasionamiento.cpp, podría convertirse en una capa de optimización en serie, permitiendo a equipos más pequeños ejecutar modelos avanzados en hardware modesto.

Sin retención, los resultados siguen sin realismo fuera de los puntos de remisión internos, sin claridad sobre el divulgación del código campechano o la compatibilidad con las optimizaciones de inferencia existentes. Hasta que surja una brío e integración más amplias, TurboQuant representa un paso prometedor pero empírico cerca de la democratización de la implementación de LLM a escalera.

Source link