AIGCLINK avatar

AIGCLINK

@aigclink

5/14/2025, 11:08:13 AM

一款延迟超低的端到端语音模型:VITA-Audio,7B参数,首次生成音频53ms,比同规模模型快3–5倍

核心是它在第一次前向传播中直接生成可解码的Audio Token Chunk

与传统的自回归模型需要多次迭代生成不同,它通过预填充token的机制,使模型在接收到输入后立即开始生成音频,来响应速度

在语音识别、语音合成以及语音问答能力都比较可以

#语音模型 #TTS #ASR #VITAAudio
github:https://t.co/ffRNmiG5Lh
Share
Explore

TwitterXDownload

v1.2.1

The fastest and most reliable Twitter video downloader. Free to use, no registration required.

© 2024 TwitterXDownload All rights reserved.