Arm C1: així són els nous nuclis que impulsen rendiment i IA

  • Nova família de nuclis Arm C1 (Ultra, Premium, Pro i Nano) amb fins a un 45% més de rendiment multinucli.
  • SME2 potencia la IA a CPU: millores mitjanes de 3,7x i fins a 5x en càrregues concretes, amb menor consum.
  • C1-DSU permet clústers de fins a 14 nuclis, L3 compartida i configuracions molt flexibles.
  • Plataforma Lumex CSS: integració de CPU C1, GPU Mali G1 i suport per a LPDDR6 a 3 nm.

Nuclis Arm C1

La nova família de nuclis Arm C1 marca un canvi important a l'ecosistema mòbil i de dispositius ultraportàtils, substituint els coneguts Cortex amb un enfocament més clar en rendiment sostingut i eficiència. Aquesta generació arriba amb la plataforma Lumex i amb un objectiu evident: accelerar la IA al propi dispositiu sense comprometre bateria ni temperatura.

Més enllà del canvi de nom, la proposta combina arquitectura Armv9.3-A, un redissenyo profund del subsistema de memòria i un impuls rellevant a les capacitats de computació matricial. El resultat es tradueix en millores generalitzades de rendiment amb un consum més contingut, a més d'un full de ruta pensat per a smartphones, tauletes, portàtils i wearables.

Arquitectura i novetats dels nuclis Arm C1

Arquitectura dels nuclis Arm C1

La sèrie C1 s'organitza en quatre variants: C1-Ultra (màxim rendiment), C1-Premium (alt rendiment en menys àrea), C1-Pro (equilibri) i C1-Nano (màxima eficiència). Cada fabricant pot combinar aquests blocs en clústers heterogenis per crear SoC adaptats a diferents gammes i usos, amb configuracions de fins a 14 nuclis.

Arm ha retocat tant el front-end com el back-end, incloent-hi millores de predicció, caixets i execució fora d'ordre. Gràcies a la nova interconnexió ia una memòria cau compartida més eficient (amb ús intensiu de cel·les SLC), la plataforma ofereix increments mitjans propers al 15% en usos quotidians, que escalen a +30% en càrregues exigents i arriben a pics de fins a un 45% en multinucli.

El suport de memòria evoluciona amb LPDDR6 per reduir consum i latències, mantenint-se la compatibilitat amb LPDDR5X a velocitats de fins a 9600 MT/s. Aquesta base de memòria, juntament amb el redisseny del clúster, reforça el rendiment sostingut i la resposta sota pressió tèrmica.

C1-Ultra: el sostre de rendiment

Com a nucli topall de gamma, C1-Ultra apunta als SoC insígnia ia tasques d'alta demanda com a fotografia computacional, models grans d'IA o jocs AAA mòbils. Davant del Cortex-X925, Arm parla d'un +25% en monofil, xifra que ajuda a escalar el rendiment global quan es combina amb més nuclis al clúster.

El front-end millora l'amplada de banda de L1 d'instruccions i la precisió de predicció, mentre que el back‑end incrementa la finestra d'execució fora d'ordre al voltant d'un 25%, arribant a manejar unes 2.000 instruccions simultàniament. A més a més, es duplica la L1 de dades fins a 128 KB i s'accelera la lectura de L1 en aproximadament un 33%.

C1-Premium: alt rendiment en menys àrea

Per a dispositius premium que no necessitin el màxim absolut, C1-Premium manté una arquitectura molt propera a Ultra però amb una reducció d'àrea del 35%. Està pensat per equilibrar prestacions i cost, facilitant dissenys més compactes sense renunciar a xifres notables.

C1-Pro: equilibri i múscul multinucli

Al segment central, C1-Pro substitueix els Cortex-A725 amb un +11% de rendiment a igual consum i amb millores d'eficiència que assoleixen fins a un 26% menys d'energia al mateix rendiment. En jocs, Arm cita guanys al voltant de + 16% en aquesta classe de nuclis.

Les claus estan en un front-end més capaç (predicció estàtica refinada i un BTB molt més gran), i en un back‑end amb més ample de banda en L1D i menor latència en L2 quan la predicció encerta. El predictor també s'ha ajustat per accelerar la resposta en escenaris reals.

C1-Nano: eficiència per sobre de tot

Per a tasques lleugeres i estalvi extrem, C1-Nano incrementa l'eficiència al voltant d'un 26% davant del seu predecessor (mantenint l'àrea pràcticament intacta, ~+2% sobre A520). S'han desacoblat etapes de predicció i cerca per portar abans les instruccions a L1 i retallar esperes per prediccions fallides.

A més, s'optimitza el processament vectorial, s'apaguen unitats quan el pipeline s'embussa i es redueix el trànsit entre L3 i DRAM (al voltant d'un 21% de mitjana i fins a un 39% en certes càrregues), cosa que alleuja consum i millora la resposta.

C1-DSU: clústers flexibles i menys consum

El nou C1‑DSU orquestra la connexió dels nuclis sota una memòria cau L3 compartida i fa de pont amb la resta del SoC (RAM, GPU, etc.). Davant d'iteracions prèvies, el disseny rebaixa el consum típic del sistema al voltant de 11 XNUMX% i l'impacte de la memòria en un ~7%, recolzant-se en modes com L3 Quick Nap per minimitzar pèrdues quan no es fa servir.

Una altra peça clau és la integració dels acceleradors SME2 com a elements externs al nucli: a C1‑Ultra i C1‑Premium la seva presència és obligatòria, mentre que a C1‑Pro i C1‑Nano és opcional segons el disseny del fabricant. Qualsevol nucli del clúster hi pot accedir quan hi són presents, cosa que habilita combinacions molt diverses (per exemple, 2× C1‑Ultra + 6× C1‑Pro amb un o dos acceleradors SME2, ​​o conjunts més modestos barrejant Pro i Nano).

La plataforma Lumex contempla també GPU de nova fornada. Tot i que el focus d'aquesta notícia són les CPU, la Tenien un G1 acompanya amb millores de ~20% en rendiment gràfic, doblega el throughput de ray tracing i redueix el cost energètic per fotograma al voltant del 9%, reforçant el conjunt per a jocs i càrregues d'IA que prefereixin la GPU.

SME2 i el paper de la CPU a la IA

SME2 a Arm C1

El gran salt a IA arriba amb SME2 (Scalable Matrix Extension 2), que accelera multiplicacions matricials, predicats múltiples i nous tipus de dades (incloses precisions compactes com 2b/4b), i es coordina amb SVE2 per a vectorització avançada. En números agregats, Arm parla de millores mitjanes de 3,7x amb descensos de consum propers a 27 XNUMX%.

En casos pràctics, la companyia ha mostrat reduccions de latència de 4,7x en reconeixement de veu (Whisper Base), acceleracions de 2,4–2,8x a text a veu i grans increments en generació de tokens per a LLM (per exemple, Gemma 3) que freguen el × 5. En executar en CPU s'eviten transferències a altres acceleradors, cosa que retalla esperar i aporta reactivitat.

Per a càrregues petites o interactives, la CPU torna a ser protagonista: amb PIME2, moltes tasques quotidianes (millora d'imatge local, segmentació, classificació, efectes de càmera o àudio) es completen abans, gastant menys i sense passar per la xarxa. Quan la demanda creix, la GPU o una NPU externa poden continuar agafant el relleu, però la CPU ja no és un coll d'ampolla.

El suport programari també acompanya: hi ha integració a Linux i Android 16, toolchains i llibreries optimitzades (KleidiAI), i compatibilitat en motors com Unity i Unreal Engine. Això facilitarà que apps i jocs adoptin aquestes millores amb rapidesa a mesura que arribin els primers SoC comercials.

la plataforma Lumex CSS posa totes les peces juntes (CPU C1, GPU Mali G1, interconnexió i memòria) amb dissenys llestos per a producció a 3 nm, telemetria en maquinari i compatibilitat de sistemes Arm amb LPDDR6. Així, els socis poden accelerar els seus projectes per a mòbils i portàtils, amb clústers escalables de fins a 14 nuclis i opcions d'IA al propi dispositiu.

Els Arm C1 combinen rendiment sostingut, eficiència i una empenta real a la IA en CPU gràcies a SME2; ofereixen la flexibilitat de C1‑DSU per adaptar els clústers a cada gamma de producte i constitueixen una base sòlida per a la propera fornada de SoC mòbils i portàtils que busca equilibrar potència, autonomia i capacitats de IA sense dependre sempre del núvol.

RISC-V SoC Sophgo
Article relacionat:
SOPHGO SG2000/SG2002: SoC per a IA amb nucli RISC-V + ARM