一款延迟超低的端到端语音模型:VITA-Audio,7B参数,首次生成音频53ms,比同规模模型快3–5倍 核心是它在第一次前向传播中直接生成可解码的Audio Token Chunk 与传统的自回归模型需要多次迭代生成不同,它通过预填充token的机制,使模型在接收到输入后立即开始生成音频,来响应速度 在语音识别、语音合成以及语音问答能力都比较可以 #语音模型 #TTS #ASR #VITAAudio
github:https://t.co/ffRNmiG5Lh
@aigclink
5/14/2025, 11:08:13 AM
一款延迟超低的端到端语音模型:VITA-Audio,7B参数,首次生成音频53ms,比同规模模型快3–5倍 核心是它在第一次前向传播中直接生成可解码的Audio Token Chunk 与传统的自回归模型需要多次迭代生成不同,它通过预填充token的机制,使模型在接收到输入后立即开始生成音频,来响应速度 在语音识别、语音合成以及语音问答能力都比较可以 #语音模型 #TTS #ASR #VITAAudio
github:https://t.co/ffRNmiG5Lh
TwitterXDownload
The fastest and most reliable Twitter video downloader. Free to use, no registration required.
© 2024 TwitterXDownload All rights reserved.
Other Links