ServerlessLLM: Low-Latency Serverless Inference for Large Language Models | OpenReview

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

Download PDF

Open Webpage

Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii Ustiugov, Yuvraj Patel, Luo Mai

Published: 2024, Last Modified: 12 May 2025OSDI 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading