OpenReview.net

Login

Back to NeurIPS

NeurIPS 2024 Workshop Audio Imagination Submissions

Loading

About OpenReview
Hosting a Venue
All Venues

Contact
Sponsors
Donate

FAQ
Terms of Use / Privacy Policy
News

About OpenReview
Hosting a Venue
All Venues
Sponsors
News

FAQ
Contact
Donate
Terms of Use
Privacy Policy

OpenReview is a long-term project to advance science through improved peer review with legal nonprofit status. We gratefully acknowledge the support of the OpenReview Sponsors. © 2026 OpenReview

Do music LLMs learn symbolic concepts? A pilot study using probing and intervention
Wenye Ma, Xinyue Li, Gus Xia
- Published: 10 Oct 2024, Last Modified: 31 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Parrot: Autoregressive Spoken Dialogue Language Modeling with Decoder-only Transformers
Ziqiao Meng, Qichao Wang, Wenqian Cui, Yifei Zhang, Bingzhe Wu, Irwin King, Liang Chen, Peilin Zhao
- Published: 10 Oct 2024, Last Modified: 31 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Vision Language Models Are Few-Shot Audio Spectrogram Classifiers
Satvik Dixit, Laurie Heller, Chris Donahue
- Published: 10 Oct 2024, Last Modified: 31 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Three-modal guidance for symbolic music generation: melody, structure, texture
Daniel Alexander Lucht, David Philip Leins, Dimitri von Rütte, Alexandra Moringen
- Published: 10 Oct 2024, Last Modified: 30 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
SNAC: Multi-Scale Neural Audio Codec
Hubert Siuzdak, Florian Grötschla, Luca A Lanzendörfer
- Published: 10 Oct 2024, Last Modified: 18 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Efficient Generative Multimodal Integration (EGMI): Enabling Audio Generation from Text-Image Pairs through Alignment with Large Language Models
Taemin Kim, Wooyeol Baek, Heeseok Oh
- Published: 10 Oct 2024, Last Modified: 11 Jun 2025
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
MLADDC: Multi-Lingual Audio Deepfake Detection Corpus
ARTH JUHUL SHAH, Ravindrakumar M. Purohit, Dharmendra H. Vaghera, Hemant Patil
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Improving Musical Accompaniment Co-creation via Diffusion Transformers
Javier Nistal, Marco Pasini, Stefan Lattner
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
One-shot Text-aligned Virtual Instrument Generation Utilizing Diffusion Transformer
Qihui Yang, Jiahe Lei, Qiuqiang Kong
- Published: 10 Oct 2024, Last Modified: 31 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Contextual Speech Emotion Recognition with Large Language Models and ASR-Based Transcriptions
Enshi Zhang, Christian Poellabauer
- Published: 10 Oct 2024, Last Modified: 30 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment
Bing Han, Long Zhou, Shujie LIU, Sanyuan Chen, Lingwei Meng, Yanmin Qian, Eric Liu, sheng zhao, Jinyu Li, Furu Wei
- Published: 10 Oct 2024, Last Modified: 25 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking
Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Text-to-Audio Generation via Bridging Audio Language Model and Latent Diffusion
ZHENYU WANG, Chenxing Li, YONG XU, Chunlei Zhang, John H. L. Hansen, Dong Yu
- Published: 10 Oct 2024, Last Modified: 17 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Style Mixture of Experts for Expressive Text-To-Speech Synthesis
Ahad Jawaid, Shreeram Suresh Chandra, Junchen Lu, BERRAK SISMAN
- Published: 10 Oct 2024, Last Modified: 28 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching
Gael Le Lan, Bowen Shi, Zhaoheng Ni, Sidd Srinivasan, Anurag Kumar, Brian Ellis, David Kant, Varun K. Nagaraja, Ernie Chang, Wei-Ning Hsu, Yangyang Shi, Vikas Chandra
- Published: 10 Oct 2024, Last Modified: 30 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM
Robin Shing-Hei Yuen, Timothy Tin-Long Tse, Jian Zhu
- Published: 10 Oct 2024, Last Modified: 31 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Articulatory Synthesis of Speech and Diverse Vocal Sounds via Optimization
Luke Mo, Manuel Cherep, Nikhil Singh, Quinn Langford, Patricia Maes
- Published: 10 Oct 2024, Last Modified: 27 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Towards Temporally Synchronized Visually Indicated Sounds Through Scale-Adapted Positional Embeddings
Xinhao Mei, Gael Le Lan, Haohe Liu, Zhaoheng Ni, Varun K. Nagaraja, Anurag Kumar, Yangyang Shi, Vikas Chandra
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation
Marco Pasini, Javier Nistal, Stefan Lattner, George Fazekas
- Published: 10 Oct 2024, Last Modified: 25 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
DGFM: Full Body Dance Generation Driven by Music Foundation Models
Xinran Liu, Zhenhua Feng, Diptesh Kanojia, Wenwu Wang
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Spatially-Aware Losses for Enhanced Neural Acoustic Fields
Christopher A. Ick, Gordon Wichern, Yoshiki Masuyama, François Germain, Jonathan Le Roux
- Published: 10 Oct 2024, Last Modified: 18 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Diffusion-based Speech Enhancement: Demonstration of Performance and Generalization
Julius Richter, Timo Gerkmann
- Published: 10 Oct 2024, Last Modified: 30 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation
Alexander H. Liu, Qirui Wang, Yuan Gong, James R. Glass
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech
Jan Melechovsky, Ambuj Mehrish, BERRAK SISMAN, Dorien Herremans
- Published: 10 Oct 2024, Last Modified: 17 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone
Neural Audio Codec for Latent Music Representations
Luca A Lanzendörfer, Florian Grötschla, Amir Dellali, Roger Wattenhofer
- Published: 10 Oct 2024, Last Modified: 29 Oct 2024
- Audio Imagination: NeurIPS 2024 Workshop
- Readers: Everyone

«
‹
1
2
›
»