MLSys 2025 Conference Submissions

TileLink: Generating Efficient Compute-Communication Overlapping Kernels using Tile-Centric Primitives
Size Zheng, Jin Fang, Xuegui Zheng, Qi Hou, Wenlei Bao, Ningxin Zheng, Ziheng Jiang, Dongyang Wang, Jianxi Ye, Haibin Lin, Li-Wen Chang, Xin Liu
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer
Jinghan Yao, Sam Ade Jacobs, Masahiro Tanaka, Olatunji Ruwase, Hari Subramoni, Dhabaleswar Panda
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution
Chendong Wang, Anlan Zhang, Yifan Yang, Lili Qiu, Yuqing Yang, XINYANG JIANG, Feng Qian, Suman Banerjee
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
Venn: Resource Management For Collaborative Learning Jobs
Jiachen Liu, Fan Lai, Eric Ding, Yiwen Zhang, Mosharaf Chowdhury
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
SwiftVI: Time-Efficient Planning and Learning with MDPs
Kasper Overgaard Mortensen, Konstantinos Skitsas, Emil Morre Christensen, Mohammad Sadegh Talebi, Andreas Pavlogiannis, Davide Mottin, Panagiotis Karras
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference
Xuanlin Jiang, Yang Zhou, Shiyi Cao, Ion Stoica, Minlan Yu
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving
GAO WEI, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
Youmu: Efficient Columnar Data Pipeline for LLM Training
Tianle Zhong, Jiechen Zhao, Qiang Su, Geoffrey Fox
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li, Guanyu Feng, Xin Lv, Xiao Chuanfu, Dahua Lin, Chao Yang
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025 withshepherding
- Readers: Everyone
Context Parallelism for Scalable Million-Token Inference
Amy Yang, Jingyi Yang, Aya Ibrahim, Xinfeng Xie, Bangsheng Tang, Grigory Sizov, Jongsoo Park, Jianyu Huang
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone
Marconi: Prefix Caching for the Era of Hybrid LLMs
Rui Pan, Zhuang Wang, Zhen Jia, Can Karakus, Luca Zancato, Tri Dao, Yida Wang, Ravi Netravali
- Published: 11 Feb 2025, Last Modified: 13 May 2025
- MLSys 2025
- Readers: Everyone