What models are used for Audio generation?

This page lists 18 AI and NLP models for the Audio generation task, from a range of providers. Each links to its details and source.

How many Audio generation models are there?

We catalog 18 Audio generation models in one searchable directory.

Which provider has the most Audio generation models?

Browse the list below to compare providers. You can also explore models by provider to see a single organization's full catalog.

Audio generation Models

There are 18 AI and NLP models for Audio generation in our directory. Browse the full list below, or explore models by provider.

Audio generation is a machine-learning task covered in our directory. We list 18 models for it.

Updated July 2026

MuseNetAudio generationOpenAI
Gemini Flash 3.1 TTSAudio generationGoogle DeepMind
Veo 3.1Image-to-video,Video generation,Text-to-video,Audio generationGoogle DeepMind
GPT-4o (Mar 2025)Chat,Image generation,Audio generation,Vision-language generation,Table tasks,Language modeling/generation,Question answering,Speech recognition (ASR),Speech-to-textOpenAI
GPT-4o (Jan 2025)Chat,Image generation,Audio generation,Vision-language generation,Table tasks,Language modeling/generation,Question answering,Speech recognition (ASR),Speech-to-textOpenAI
Fugatto 1Audio generationNVIDIA
GPT-4o (Nov 2024)Chat,Image generation,Audio generation,Vision-language generation,Table tasks,Language modeling/generation,Question answering,Speech recognition (ASR),Speech-to-textOpenAI
Suno v4Audio generationSuno
GPT-4o (Aug 2024)Chat,Image generation,Audio generation,Vision-language generation,Table tasks,Language modeling/generation,Question answering,Speech recognition (ASR),Speech-to-textOpenAI
GPT-4oChat,Image generation,Audio generation,Vision-language generation,Table tasks,Language modeling/generation,Question answering,Speech recognition (ASR),Speech-to-textOpenAI
Seedance 2.0Video generation,Audio generationByteDance
Mamba-24M (SC09)Audio generation,Speech synthesis,Text-to-speech (TTS)Carnegie Mellon University (CMU),Princeton University
MultiBand DiffusionAudio generationMeta AI,Hebrew University of Jerusalem,LORIA
AudioLMAudio generationGoogle Research
MusicGenAudio generationMeta AI
AudioGenAudio generationMeta AI,Hebrew University of Jerusalem
MusicLMAudio generationGoogle
EnCodecAudio generationMeta AI

Browse models by provider

openai (60)Qwen (51)google (42)Google DeepMind (40)NVIDIA (33)Alibaba (32)Meta AI (24)microsoft (23)Stanford University (19)meta-llama (16)Anthropic (16)Tsinghua University (16)deepseek-ai (15)DeepMind (14)ByteDance (13)facebook (13)

Explore other model tasks

Language modeling/generation(222)Question answering(154)text-generation(143)Code generation(95)image-text-to-text(80)Chat(80)Visual question answering(64)Quantitative reasoning(60)translation(55)text-to-image(53)Language modeling(42)Image captioning(36)

Browse models by provider

Explore other model tasks

Frequently asked questions

What models are used for Audio generation?

How many Audio generation models are there?

Which provider has the most Audio generation models?