Arm ha fet el pas i presenta Lumex, la seva plataforma de subsistema de còmput (CSS) més ambiciosa fins avui, pensada per impulsar la IA al propi dispositiu tant a mòbils de gamma alta com a ordinadors de nova generació.
La proposta combina blocs de maquinari i programari llestos per integrar-se en un SoC: noves CPU Arm C1 amb SME2, GPU Mali G1, interconnexió i una pila de desenvolupament optimitzada, per tal d'habilitar experiències com traducció en temps real, assistents més contextuals y jocs amb gràfics avançats sense dependre constantment del núvol.
Què és Lumex i què canvia davant d'altres plataformes
Més enllà d'un conjunt d'IP soltes, Lumex és un subsistema de referència llest per a 3 nm que els fabricants poden adoptar tal qual o configurar a mida, reduint temps dintegració i assegurant rendiment des del primer silici.
Arm n'estrena a més una nomenclatura renovada per als seus blocs: la família de CPU passa a C1 (Amb C1-Ultra, C1-Premium, C1-Pro i C1-Nano) i la GPU a Tenien un G1 (G1-Ultra, G1-Premium i G1-Pro), amb PIME2 com a gran carta per accelerar la IA a la CPU.
CPU Arm C1: arquitectura, SME2 i salt de rendiment
el clúster Arm C1 està dissenyat sobre Armv9.3 i pot escalar fins 14 nuclis, Amb suport per a LPDDR6 (mantenint compatibilitat amb LPDDR5X). La interconnexió C1-DSU coordina els nuclis sota una memòria cau L3 compartida i afegeix millores d'eficiència davant de la generació prèvia.
Les instruccions SME2 són obligatòries a C1-Ultra i C1-Premium i opcionals a C1-Pro i C1-Nano, permetent multiplicar el rendiment en càrregues d'IA a la CPU sense els costos de moure dades a altres acceleradors.
Segons Arm, un clúster C1 amb SME2 ofereix fins a 5 vegades més rendiment a IA, redueix la latència de veu fins a 4,7 vegades i accelera la generació d'àudio 2,8 vegades respecte a la generació anterior.
Més enllà de la IA, la nova arquitectura aporta un 15% de millora mitjana en usos quotidians, fins a un 30% en càrregues exigents i pics de 45% en multinucli, ajudada per optimitzacions en front-end, predicció i finestres dexecució fora dordre.

GPU Mali G1: més ray tracing i millores a IA
La Mali G1-Ultra introdueix una unitat de traçat de raigs de nova generació (RTUv2) i promet el doble de rendiment en ray tracing davant de l'anterior, juntament amb un 20% més de rendiment gràfic y 9% menys energia per fotograma.
A IA/ML, la GPU afegeix rutes FP16 per a multiplicació de matrius i aconsegueix fins a un 20% més d'inferència, millorant tasques com reconeixement de la parla, segmentació semàntica o millora d'imatge davant de la generació prèvia.
La família es completa amb G1-Premium (6–9 nuclis, sense ray tracing) i G1-Pro (1–5 nuclis), en una arquitectura escalable que doblega la xarxa interna i les zones de memòria cau per reduir la congestió i augmentar l'amplada de banda.
Programari i ecosistema: KleidiAI i suport en frameworks
La plataforma acompanya el maquinari amb una pila pensada perquè els desenvolupadors aprofitin SME2 i Mali G1 sense canvis profunds a les seves apps: KleidiAI s'integra amb ExecuTorch (PyTorch), ONNX Runtime i Google LiteRT, entre d'altres.
Arm treballa a més amb Android 16, Linux i motors com Unity i Unreal perquè les optimitzacions d'IA i gràfics arribin de forma Automàtica a jocs i aplicacions compatibles.
Lumex CSS per a SoC a 3 nm: integració i telemetria
El paquet CSS inclou dissenys físics llestos per a 3 nm en els principals nodes, amb perfils de potència/rendiment/àrea ja validats, cosa que escurça el «time-to-market» i minimitza riscos al tape-out.
s'afegeixen eines de telemetria i una plataforma de referència per facilitar la posada a punt per model, així com la flexibilitat del C1-DSU per adaptar clústers i acceleradors a cada segment.
Adopció: objectius i dispositius de destinació
Arm planeja portar aquesta tecnologia a 3.000 milions de dispositius al llarg del cicle, amb una capacitat agregada de còmput d'IA que supera els 10.000 milions de TOPS entre tots ells, deixant als socis la llibertat d'integració segons producte.
A la pràctica, veurem mòbils Android amb funcions de IA locals més ràpides, portàtils basats en Arm que aprofitin SME2 i GPU renovada, i dissenys que prioritzin eficiència o prestacions en funció del mercat.
Amb Lumex, Arm intenta accelerar el salt a una IA útil, privada i amb baixa latència al dispositiu, recolzant-se en CPU C1 amb SME2, GPU Mali G1 i una base CSS llista per a 3 nm; una combinació que apunta a millor rendiment y menys consum sense sacrificar la flexibilitat que demanen els fabricants.
