Modelos para Audio | Audio Models
Transcripción, voz y generación musical. Modelos: Whisper Large v3 / Turbo (transcripción), XTTS v2 (clonación de voz), MusicGen (música).
Transcription, voice cloning and music generation. Models: Whisper, XTTS, MusicGen.
👉 Whisper corre incluso en GPUs modestas. Para clonación de voz recomendado RTX 4060 Ti 16GB.