- Destilación del conocimiento: Un maniquí de “avezado” más excelso entrena a un maniquí de “estudiante” pequeño para que pueda asimilar a imitar fuertes capacidades de razonamiento, pero a una escalera mucho beocio.
- Poda: Los parámetros redundantes o irrelevantes se eliminan de las arquitecturas de redes neuronales.
- Cuantización: Los títulos se reducen de adhesión precisión a beocio precisión (es opinar, los números de punto flotante se convierten en números enteros) para achicar el tamaño de los datos, acelerar el procesamiento y optimizar el consumo de energía.
Los modelos más grandes igualmente se pueden modificar y destilar en modelos más pequeños y más especializados mediante técnicas como la procreación aumentada de recuperación (RAG), cuando se les entrena para extraer fuentes confiables ayer de ocasionar una respuesta; ajuste fino y ajuste rápido para enfilar las respuestas a áreas específicas; o LoRa (acoplamiento de rango bajo), que añade piezas ligeras a un maniquí innovador para achicar su tamaño y envergadura, en sitio de retornar a entrenar o modificar todo el maniquí.
En última instancia, con los SLM, los datos empresariales se convierten en un “diferenciador secreto, lo que requiere preparación de datos, controles de calidad, control de versiones y dirección caudillo para asegurar que los datos relevantes estén estructurados para cumplir con los requisitos de ajuste”, señala Sumit Agarwalanalista vicepresidente de Gartner.
Beneficios de los modelos de lengua pequeños
El principal impulsor de los SLM es financiero, señalan los analistas. “Para tareas de gran comba, repetitivas y de envergadura (como la clasificación del servicio al cliente), los costos de utilizar un generalista de un billón de parámetros no se pueden demostrar”, señala Randall de Info-Tech.
