DeepSeek lanceta OCR 2 con una nueva casa de codificación visual, dirigida a una visión fabricado más parecida a la humana

La startup china de inteligencia fabricado DeepSeek publicó el martes un artículo de investigación y abrió su extremo maniquí de agradecimiento óptico de caracteres (OCR), DeepSeek-OCR 2, con el objetivo de mejorar la forma en que las máquinas interpretan y procesan la información visual. La compañía dijo que el maniquí se pedestal en su casa DeepEncoder V2, que reemplaza la codificación visual rígida basada en escaneo con un enfoque de razonamiento semántico, lo que permite a los sistemas de inteligencia fabricado reorganizar los componentes de la imagen dinámicamente según el contexto y el significado.

DeepSeek dijo que el maniquí prosperidad la eficiencia de la compresión de datos y necesita sólo de 256 a 1120 tokens visuales para procesar páginas de documentos complejos, lo que reduce los costos computacionales para los modelos de lenguajes grandes posteriores. En las pruebas comparativas realizadas en OmniDocBench v1.5, DeepSeek-OCR 2 logró una puntuación normal del 91,09 %, una prosperidad del 3,73 % con respecto a la procreación precedente, con un sólido rendimiento en el agradecimiento de órdenes de recitación.

El tiro se produce cuando los desarrolladores chinos de IA intensifican sus esfuerzos para mejorar los modelos fundamentales y las capacidades de código libre, en medio de una creciente competencia en grandes modelos de jerga y sistemas de IA multimodales. (Mensaje de tecnodo)