一款延迟超低的端到端语音模型：VITA-Audio，7B参数，首次生成音频53ms，比同规模模型快3

一款延迟超低的端到端语音模型：VITA-Audio，7B参数，首次生成音频53ms，比同规模模型快3–5倍

核心是它在第一次前向传播中直接生成可解码的Audio Token Chunk

与传统的自回归模型需要多次迭代生成不同，它通过预填充token的机制，使模型在接收到输入后立即开始生成音频，来响应速度

在语音识别、语音合成以及语音问答能力都比较可以

#语音模型 #TTS #ASR #VITAAudio

github：https://t.co/ffRNmiG5Lh

AIGCLINK