Prompt Cache: Modular Attention Reuse for Low-Latency Inference | OpenReview

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Download PDF

Open Webpage

In Gim, Guojun Chen, Seung-Seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong

Published: 01 Jan 2024, Last Modified: 21 May 2025MLSys 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading