Kakao pica LLM Kanana-2 de código extenso para IA agente -

kakao‍‌‍‍‌‍‌‍‍‌ ha extenso la fuente para Kanana-2su nuevo maniquí de habla espacioso fabricado internamente, que es un paso importante en la táctica de inteligencia químico de la empresa de Internet de Corea del Sur.

El anuncio del emanación de las tres variantes Colchoneta, Instruct y Thinking fue para fallar su intención de utilizar estos modelos para agentes. sistemas de inteligencia químicotareas de seguimiento de instrucciones y flujos de trabajo de razonamiento liberal, respectivamente.

Kakao está poniendo a disposición del divulgado por primera vez no solo un maniquí con capacidad de razonamiento, sino además sus pesos completos, lo que permite a los desarrolladores ajustar los modelos para fines de investigación y no comerciales.

Kanana-2 es un maniquí multilingüe con capacidad de hasta seis idiomas que encima implementa sofisticados innovaciones arquitectónicas como atención implícito de múltiples cabezas y mezcla de expertos (MoE). Esto zaguero mejoría la eficiencia computacional del maniquí y abre la posibilidad de que el maniquí maneje contextos más largos y complejos.

Aspectos destacados secreto

Kakao abrió su gran tribu de modelos de habla Kanana-2 de código extenso.
El emanación incluye variantes de pensamiento primordial, de instrucción y centrado en el razonamiento.
Kanana-2 está optimizado para IA agente, pero restringe el uso comercial según CC-BY-NC-4.0.

Sin bloqueo, el emanación de Kanana-2 como maniquí de código extenso está sujeto a importantes restricciones de atrevimiento. Los modelos Kanana Nano 2.1B disponibles públicamente están bajo la atrevimiento Creative Commons Attribution–NonCommercial 4.0 (CC-BY-NC-4.0), que, entre otras cosas, prohíbe el uso comercial.

Lea además: KKR apunta al sector químico japonés con la adquisición de Taiyo

Los desarrolladores no pueden usar Kanana-2 para crear productos que generan ingresos sin obtener una cuenta separada acuerdo comercial de Kakao, lo que lo sitúa así en la misma categoría que otros modelos con licencias restringidas como Meta’s Lumbre.

Existe una ventana de oportunidad temprana para los proveedores de infraestructura y MLOps tras el emanación. Los proveedores pueden diferenciarse de la competencia incorporando Kanana-2 con la ayuda de bibliotecas de inferencia como vLLM y TensorRT-LLM o habilitando la implementación mediante NVIDIA NIM.

Source link