Què és StepFun AI Step-Audio 2 Mini: guia completa

  • Model end-to-end per a comprensió, raonament i generació de veu amb Tool Calling i RAG multimodal.
  • Tokenització dual 2:3, control prosòdic i demo local/online amb scripts llestos.
  • Resultats SOTA a ASR, paralingüística, MMAU i traducció; veu a veu competitiva.

stepfun ai

StepFun AI Step-Audio 2 Mini és un model de veu extrem a extrem que unifica comprensió, raonament i generació d'àudio en una sola arquitectura. Dissenyat per a converses naturals i anàlisi profunda de la parla, domina tasques com ASR, enteniment paralingüístic, raonament sobre sons, traducció i diàleg veu a veu, reduint la latència i minimitzant al·lucinacions gràcies a trucades a eines i recuperació multimodal.

Més enllà de la teoria, Step-Audio 2 Mini brilla en benchmarks públics i escenaris reals: entén accents i dialectes, capta emocions i prosòdia, i és capaç de ajustar timbre, ritme i estil, fins i tot cantar o rapejar. A més, s'integra amb cerca web i àudio, i arriba en obert a través de GitHub i Hugging Face, cosa que facilita provar-ho, auditar-ho i adaptar-ho a necessitats de producte o investigació.

Què és StepFun AI Step-Audio 2 Mini

En poques paraules, és la versió compacta de la família Step-Audio 2, un model multimodal de veu end-to-end preparat per a producció que unifica tasques clàssiques (ASR i TTS) amb capacitats avançades de diàleg i eines. A diferència de lenfocament ASR + LLM + TTS per etapes, el seu disseny directe audio-àudio/text redueix complexitat i latència, preservant detalls paralingüístics (entonació, timbre, ritme) i senyals no vocals.

Entre els seus pilars destaquen: conversa intel·ligent amb context llarg i sensibilitat prosòdica, Tool Calling nadiu amb RAG multimodal (text i àudio) per injectar coneixement actualitzat i canvi de timbre segons referències recuperades. Aquesta combinació disminueix al·lucinacions i fa que les respostes siguin més útils i naturals.

La família es completa amb Step-Audio 2 (major capacitat) i components relacionats de l'ecosistema Step-Audio, incloent un model base de 130B paràmetres emprat per a preentrenament contextualitzat amb àudio i un TTS eficient (Step-Audio-TTS-3B). Tot i que Mini no exigeix ​​la infraestructura massiva del 130B, hereta la seva pipeline de dades generatives i les pautes de control fi de la veu.

Arquitectura i claus tècniques

step àudio 2 mini

El sistema adopta tokenització dual i intercalada: un codebook semàntic de 1024 entrades a ~16,7 Hz i un altre acústic de 4096 a ~25 Hz, sincronitzats amb una relació temporal 2:3. Aquesta integració a nivell de token permet representar, alhora, el contingut lingüístic i la textura sonora amb més detall.

Per a la generació, s'empra un descodificador de veu híbrid que combina un model de flow matching amb un vocoder mel-to-wave. En entrenar-lo amb l'esquema de doble codebook intercalat, el sistema conserva la intel·ligibilitat i la naturalitat de la parla durant la síntesi, fins i tot quan es controla emoció, velocitat o estil.

L'arquitectura en streaming es recolza en un controlador que coordina VAD (detecció d'activitat de veu), tokenització d'àudio en temps real, el model lingüístic de Step-Audio i el descodificador. Incorpora generació especulativa (comprometent ~40% de tokens) i gestió de context basada en text amb compressió 14:1, la qual cosa ajuda a mantenir coherència en diàlegs llargs amb costos manejables.

A l'entrenament posterior, es combinen SFT per ASR i TTS amb reforç per retroalimentació humana (RLHF) i raonament de Cadena de pensament focalitzat en paralingüística. Això millora la capacitat del model per interpretar senyals com emocions, to o música i respondre de manera matisada i controlable.

Descàrrega, instal·lació i ús local

El model està disponible en Cara abraçada i el repositori oficial, amb scripts llestos per a inferència i una demo web local. Els passos de preparació de l'entorn (comta + pip) i la descàrrega amb Git LFS són directes i, en equips moderns, ràpids de replicar.

conda create -n stepaudio2 python=3.10
conda activate stepaudio2
pip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml

# Repositorio y pesos
git clone https://github.com/stepfun-ai/Step-Audio2.git
cd Step-Audio2

# Modelos en Hugging Face
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini

Per realitzar una primera prova, només cal executar l'script d'exemple: la inferència funciona amb àudio i text i permet validar la configuració de lentorn sense complicacions.

python examples.py

També hi ha una demo web local amb interfície simple que s'aixeca amb Gradio, ideal per avaluar interacció per veu en un navegador.

pip install gradio
python web_demo.py

Demostracions en línia, consola i app mòbil

StepFun ofereix una consola de temps real per provar el model des del navegador, així com un assistent mòbil amb cerca web i d'àudio integrades. A l'app, només cal descarregar-la des de la botiga, obrir-la i tocar la icona del telèfon a la cantonada superior dreta per activar el mode veu.

La comunitat pot unir-se a un grup de WeChat mitjançant QR per debatre, compartir resultats i resoldre dubtes. I si ho prefereixes, els enllaços directes per a descàrrega són aquests: GitHub (Step-Audio2), Cara abraçada (Step-Audio-2-mini) i ModelScope (model homònim). En alguns llistats externs veuràs avisos de cookies o missatges de compatibilitat del navegador (com a Reddit o X), cosa normal a plataformes socials.

  • GitHub: https://github.com/stepfun-ai/Step-Audio2
  • Cara abraçada: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
  • ModelScope: https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

Rendiment en benchmarks: comprensió, paralingüística i més

En proves públiques i de casa, Step-Audio 2 Mini i el seu germà gran mostren resultats de referència. A continuació, repassem els punts clau comparats amb sistemes comercials i open source: GPT-4o Audio, Qwen-Omni/Qwen2.5-Omni, Kimi-Audio, Omni-R1, Audio Flamingo 3, Doubao LLM ASR, entre d'altres.

ASR multilingüe (taxes CER/WER més baixes són millors)

En anglès, la mitjana WER situa a Step-Audio 2 el 3,14 ja Mini 2 a 3,50, amb conjunts com Common Voice, FLEURS, i LibriSpeech (clean/other). Destaca LibriSpeech «other» amb 2,42 per a Step-Audio 2, per sota d'alternatives obertes i comercials. A xinès, mitjana 3,08 (Step-Audio 2) i 3,19 (Mini), amb bons resultats a AISHELL/AISHELL-2, KeSpeech i WenetSpeech.

Per a escenaris multilingües addicionals, brilla en japonès (FLEURS) amb 3,18 (Step-Audio 2) i 4,67 (Mini), i competeix en cantonès (Common Voice yue). En conjunt “in-house” amb accents i dialectes xinesos, la mitjana cau a 8,85 (Step-Audio 2) i 9,85 (Mini), amb millores clares en dialectes exigents com shanghainès (17,77 vs 19,30 davant d'altres opcions que en superen 58).

Enteniment paralingüístic

A la suite StepEval-Audio-Paralinguistic, Step-Audio 2 arriba a 83,09 de mitjana i Mini 2 80,00. Per dimensions: gènere i edat arriben a 100/96 (2) i 100/94 (Mini); timbre 82/80; escenari 78/78; emoció 86/82; ritme 86/68; velocitat 88/74; estil 88/86; i vocal 68/76. El salt davant de sistemes previs demostra control prosòdic fi i robustesa perceptiva.

Raonament i comprensió d'àudio (MMAU)

Al benchmark MMAU, Step-Audio 2 lidera amb 78,0 de mitjana (83,5 en so, 76,9 en veu, 73,7 en música), mentre que Mini 2 marca 73,2. Entre els comparats: Omni-R1 77,0, Àudio Flamingo 3 73,1, Gemini 2.5 Pro 71,6, Qwen2.5-Omni 71,5 i GPT-4o Àudio 58,1. Això evidencia un raonament auditiu competitiu fins i tot davant d'alternatives comercials.

Traducció de veu

A CoVoST 2 (S2TT), les mitjanes pugen a 39,29 per a Step-Audio 2 Mini i 39,26 per a Step-Audio 2, amb major fortalesa en anglès→xinès (~49). A CVSS (S2ST), Step-Audio 2 lidera amb 30,87 de mitjana i Mini aconsegueix 29,08; GPT-4o Àudio ronda 23,68. En conjunt, aquests resultats consoliden la competència creuant idiomes en text i parla generada.

Tool Calling nadiu

A StepEval-Audio-Toolcall (recerca d'àudio, data/hora, temps i web), Step-Audio 2 aconsegueix altes precisions/recalls de tret i 100% en identificació de tipus/paràmetres quan s'aplica. Per exemple, a la recerca d'àudio, el tret mitjà 86,8/99,5; a web search, 88,4/95,5; i en clima, 92,2/100. Davant d'un fort baseline (Qwen3-32B), manté equilibris molt sòlids entre trigger, tipus i paràmetres.

Conversa veu a veu (URO-Bench)

Per a xinès (bàsic/pro), Step-Audio 2 aconsegueix 83,32/68,25 i 2 Mini 77,81/69,57. En anglès, GPT-4o Audio aconsegueix 84,54/90,41 en mitges, però Step-Audio 2 el segueix de prop a comprensió i raonament (92,72/76,51 en U/R bàsics i 64,86/67,75 en pro), mentre que Mini ofereix 74,36 de mitjana bàsica, notable per a un sistema end-to-end obert.

Relació amb Step-Audio (130B) i TTS 3B

L'ecosistema Step-Audio inclou un model 130B que serveix de base textual, amb preentrenament continuat contextualitzat en àudio i postentrenament per tasques. Gràcies a un motor de dades generatives, se sintetitzen àudios d'alta qualitat per entrenar i alliberar públicament un TTS eficient de 3B (Step-Audio-TTS-3B) amb control d'instruccions (emocions, dialectes, estils) molt granular.

A ASR, davant de referències com Whisper Large-v3 i Qwen2-Audio, les variants Step-Audio Pretrain i Step-Audio-Chat registren CER/WER competitius a Aishell-1/2, WenetSpeech i LibriSpeech. Per exemple, a Aishell-1, Step-Audio Pretrain arriba a 0,87% CER; ia LibriSpeech test-clean, Step-Audio-Chat signa 3,11% WER, amb Qwen2-Audio en 1,6% com a referència. Aquestes xifres reflecteixen que la tokenització discreta dàudio pot igualar o superar enfocaments de features ocultes en diferents conjunts.

A TTS, les variants Step-Audio-TTS-3B i Single mostren taxes d'error baixes i similitud de locutor (SS) elevades davant de FireRedTTS, MaskGCT i CosyVoice/2. En test-zh, per exemple, Step-Audio-TTS arriba a 1,17% CER; en test-en, a 2,0% WER, amb SS competitiva. A més, en avaluar generació des de tokens discrets, Step-Audio-TTS-3B aconsegueix 2,192% CER (zh) i 3,585% WER (en), amb SS al voltant de 0,784/0,742, valors que delaten claredat i estabilitat veu.

Requisits i desplegament

Per a la família Step-Audio completa, es recomanen GPUs NVIDIA amb CUDA. La configuració de referència per a Step-Audio-Chat (130B) és de quatre A800/H800 80 GB. També es proporciona una Dockerfile per preparar l'entorn i recomanacions com utilitzar vLLM amb paral·lelisme tensorial per al 130B (tenint en compte que la branca oficial pot no suportar encara el model Step 1, i que se'n requereix una flash attention personalitzada per la variant ALiBi emprada).

En el cas de Step-Audio 2 Mini, els requisits són més continguts i la inferència local resulta viable per a proves i prototipat. La demo web i els scripts d'exemple faciliten validar la pila sense orquestracions complexes ni infraestructura distribuïda.

Casos d'ús i exemples pràctics

Step-Audio 2 Mini ja s'ha mostrat capaç de detectar sons naturals i locucions professionals, controlar el tempo de la parla sota demanda, i fer cerques en temps real per portar notícies d'última hora. Davant de dilemes filosòfics, converteix consultes abstractes en mètodes i passos clars, reflectint-ne la potència de raonament auditiu i verbal.

També hi ha exemples multilingües fluids (xinès, anglès, japonès), jocs d'idiomes i expressions idiomàtiques tal com “Està plovent gats i gossos", capaces de ser explicades amb senzillesa i to natural. Les mostres públiques inclouen control de velocitat (molt ràpid/molt lent), demostrant que el model no només entén el contingut, sinó que governa la prosòdia a petició.

Llicència i citació

El codi i els models del repositori es publiquen sota llicència Apache 2.0. L'informe tècnic associat es pot citar com a Step-Audio 2 Technical Report (arXiv: 2507.16632), amb una autoria extensa encapçalada per Boyong Wu i col·laboradors, i afiliació de StepFun AI. Per a més detalls, consulteu l'entrada d'arXiv i el BibTeX oficial.

@misc{wu2025stepaudio2technicalreport,
  title={Step-Audio 2 Technical Report},
  author={Boyong Wu et al.},
  year={2025},
  eprint={2507.16632},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2507.16632}
}

Step-Audio 2 Mini ofereix una barreja molt poc comuna de precisió ASR, comprensió paralingüística, raonament auditiu i síntesi natural, empaquetada en un marc end-to-end llest per a desplegaments pràctics; amb eines, RAG multimodal i control de veu fi, es posiciona com una opció oberta, versàtil i amb resultats SOTA en diverses tasques clau.