Arm Lumex: la nova plataforma CSS per a IA al dispositiu

  • Arm reuneix CPU C1 amb SME2, ​​GPU Mali G1 i una pila de programari per accelerar la IA al dispositiu.
  • Fins a 5x més rendiment d'IA a CPU i el doble de traçat de raigs a la GPU respecte a la generació prèvia.
  • Dissenys llestos per a 3 nm, clúster C1-DSU flexible i suport per a Android 16 i KleidiAI.
  • Objectiu de desplegament a 3.000 milions de dispositius amb integració configurable pels socis.

Presentació d'Arm Lumex i la seva plataforma CSS per a IA

Arm ha fet el pas i presenta Lumex, la seva plataforma de subsistema de còmput (CSS) més ambiciosa fins avui, pensada per impulsar la IA al propi dispositiu tant a mòbils de gamma alta com a ordinadors de nova generació.

La proposta combina blocs de maquinari i programari llestos per integrar-se en un SoC: noves CPU Arm C1 amb SME2, GPU Mali G1, interconnexió i una pila de desenvolupament optimitzada, per tal d'habilitar experiències com traducció en temps real, assistents més contextuals y jocs amb gràfics avançats sense dependre constantment del núvol.

Què és Lumex i què canvia davant d'altres plataformes

Més enllà d'un conjunt d'IP soltes, Lumex és un subsistema de referència llest per a 3 nm que els fabricants poden adoptar tal qual o configurar a mida, reduint temps dintegració i assegurant rendiment des del primer silici.

Arm n'estrena a més una nomenclatura renovada per als seus blocs: la família de CPU passa a C1 (Amb C1-Ultra, C1-Premium, C1-Pro i C1-Nano) i la GPU a Tenien un G1 (G1-Ultra, G1-Premium i G1-Pro), amb PIME2 com a gran carta per accelerar la IA a la CPU.

Arm Lumex integrant CPU C1, GPU Mali G1 i SME2

CPU Arm C1: arquitectura, SME2 i salt de rendiment

el clúster Arm C1 està dissenyat sobre Armv9.3 i pot escalar fins 14 nuclis, Amb suport per a LPDDR6 (mantenint compatibilitat amb LPDDR5X). La interconnexió C1-DSU coordina els nuclis sota una memòria cau L3 compartida i afegeix millores d'eficiència davant de la generació prèvia.

Les instruccions SME2 són obligatòries a C1-Ultra i C1-Premium i opcionals a C1-Pro i C1-Nano, permetent multiplicar el rendiment en càrregues d'IA a la CPU sense els costos de moure dades a altres acceleradors.

Segons Arm, un clúster C1 amb SME2 ofereix fins a 5 vegades més rendiment a IA, redueix la latència de veu fins a 4,7 vegades i accelera la generació d'àudio 2,8 vegades respecte a la generació anterior.

Més enllà de la IA, la nova arquitectura aporta un 15% de millora mitjana en usos quotidians, fins a un 30% en càrregues exigents i pics de 45% en multinucli, ajudada per optimitzacions en front-end, predicció i finestres dexecució fora dordre.

Arquitectura Arm Lumex amb clúster C1 i DSU

GPU Mali G1: més ray tracing i millores a IA

La Mali G1-Ultra introdueix una unitat de traçat de raigs de nova generació (RTUv2) i promet el doble de rendiment en ray tracing davant de l'anterior, juntament amb un 20% més de rendiment gràfic y 9% menys energia per fotograma.

A IA/ML, la GPU afegeix rutes FP16 per a multiplicació de matrius i aconsegueix fins a un 20% més d'inferència, millorant tasques com reconeixement de la parla, segmentació semàntica o millora d'imatge davant de la generació prèvia.

La família es completa amb G1-Premium (6–9 nuclis, sense ray tracing) i G1-Pro (1–5 nuclis), en una arquitectura escalable que doblega la xarxa interna i les zones de memòria cau per reduir la congestió i augmentar l'amplada de banda.

Programari i ecosistema: KleidiAI i suport en frameworks

La plataforma acompanya el maquinari amb una pila pensada perquè els desenvolupadors aprofitin SME2 i Mali G1 sense canvis profunds a les seves apps: KleidiAI s'integra amb ExecuTorch (PyTorch), ONNX Runtime i Google LiteRT, entre d'altres.

Arm treballa a més amb Android 16, Linux i motors com Unity i Unreal perquè les optimitzacions d'IA i gràfics arribin de forma Automàtica a jocs i aplicacions compatibles.

Lumex CSS per a SoC a 3 nm: integració i telemetria

El paquet CSS inclou dissenys físics llestos per a 3 nm en els principals nodes, amb perfils de potència/rendiment/àrea ja validats, cosa que escurça el «time-to-market» i minimitza riscos al tape-out.

s'afegeixen eines de telemetria i una plataforma de referència per facilitar la posada a punt per model, així com la flexibilitat del C1-DSU per adaptar clústers i acceleradors a cada segment.

Adopció: objectius i dispositius de destinació

Arm planeja portar aquesta tecnologia a 3.000 milions de dispositius al llarg del cicle, amb una capacitat agregada de còmput d'IA que supera els 10.000 milions de TOPS entre tots ells, deixant als socis la llibertat d'integració segons producte.

A la pràctica, veurem mòbils Android amb funcions de IA locals més ràpides, portàtils basats en Arm que aprofitin SME2 i GPU renovada, i dissenys que prioritzin eficiència o prestacions en funció del mercat.

Amb Lumex, Arm intenta accelerar el salt a una IA útil, privada i amb baixa latència al dispositiu, recolzant-se en CPU C1 amb SME2, ​​GPU Mali G1 i una base CSS llista per a 3 nm; una combinació que apunta a millor rendiment y menys consum sense sacrificar la flexibilitat que demanen els fabricants.

nuclis C1 d'Arm
Article relacionat:
Arm C1: així són els nous nuclis que impulsen rendiment i IA