SenseTime, un chino La empresa de IA más conocida por su tecnología de reconocimiento facial, lanzó el martes un nuevo modelo de código abierto que afirma que puede generar e interpretar imágenes mucho más rápidamente que los mejores modelos desarrollados por los competidores estadounidenses. SenseNova U1 podría ayudar a la empresa a recuperar el terreno perdido después de haber perdido su puesto entre los principales actores de la carrera de desarrollo de la IA de China.
La salsa secreta del modelo es su capacidad de "leer" imágenes sin traducirlas primero a texto, acelerando el proceso y reduciendo la cantidad de potencia de cálculo requerida. "Todo el proceso de razonamiento del modelo ya no se limita al texto. También puede razonar con imágenes", dijo Dahua Lin, cofundador y científico jefe de SenseTime, en una entrevista en WIRED.
Lin, que también es profesor de ingeniería de la información en la Universidad China de Hong Kong, dice que los modelos capaces de procesar imágenes directamente permitirán a los robots entender mejor el mundo físico en el futuro.
Al igual que el último modelo insignia de DeepSeek, SenseTime dice que el U1 se puede alimentar con chips de fabricación china. "Varios fabricantes de chips nacionales chinos han terminado de optimizar la compatibilidad con nuestro nuevo modelo", dice Lin. El día del lanzamiento, 10 diseñadores de chips chinos, incluidos Cambricon y Biren Technology, anunciaron que su hardware es compatible con U1.
Esta flexibilidad es importante porque los controles de exportación de EE.UU. restringen a las empresas chinas el acceso a los chips de IA más avanzados del mundo, especialmente los que se utilizan para la formación, que en este momento están desarrollados principalmente por empresas occidentales como Nvidia. "Seguiremos impulsando la formación en chips más diferentes", dice Lin. Pero también reconoce que SenseTime "puede que todavía tenga que utilizar los mejores chips para garantizar la velocidad de nuestra iteración".
SenseTime lanzó U1 gratuitamente a Hugging Face y GitHub, otro signo de cómo las empresas chinas se están convirtiendo en algunos de los colaboradores más activos en la IA de código abierto.
SenseTime se fundó en 2014 y se convirtió en un líder mundial en visión por ordenador, que se utiliza en aplicaciones como reconocimiento facial y conducción autónoma. Pero cuando ChatGPT y otros sistemas de IA basados en el procesamiento del lenguaje natural se convirtieron en el más popular de la industria tecnológica, SenseTime empezó a luchar por obtener beneficios y se quedó por detrás de las nuevas empresas chinas como DeepSeek y MiniMax.
SenseTime dice que espera que el lanzamiento público de SenseNova-U1 para que todo el mundo lo utilice le ayude a ponerse al día con los jugadores de IA nacionales y occidentales. Lin dice que la compañía finalmente tomó la decisión el pasado año de centrarse en el código abierto debido a los comentarios útiles que recibe de los investigadores, que permiten a la empresa iterar más rápidamente. "En la actualidad, ser de código abierto o código cerrado no es el factor ganador; la velocidad de iteración lo es", explica Lin.
El uso de código abierto ayuda también a SenseTime a continuar colaborando con investigadores internacionales sin la interferencia de la geopolítica. La empresa ha sido sancionada repetidamente por el gobierno de Estados Unidos en los últimos años por acusaciones de que su tecnología de reconocimiento facial ayudó a los sistemas de vigilancia eléctrica utilizados para controlar y detener a los uigures y otros grupos minoritarios en la región de Xinjiang de China. Como resultado, las empresas estadounidenses tienen restricciones de invertir en SenseTime y vender determinadas tecnologías sin licencia. (SenseTime ha negado las acusaciones.)
Viendo con claridad
En un informe técnico adjunto, SenseTime afirma que SenseNova-U1 genera imágenes de mayor calidad que todos los demás modelos de código abierto actualmente en el mercado. Su rendimiento es comparable a los modelos de código cerrado chinos líderes como Qwen de Alibaba y Seedream de ByteDance, pero aún queda atrás de los líderes del sector como GPT-Image-2.0, que salió hace sólo una semana.
Sin embargo, el principal argumento de venta del modelo es su capacidad de generar imágenes mucho más rápido que todos estos modelos. Se basa en una estructura técnica innovadora llamada NEO-Unify que SenseTime vio previamente a principios de ese año.

Deja una respuesta