PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System | OpenReview

PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System

Open Webpage

Yintao He, Haiyu Mao, Christina Giannoula, Mohammad Sadrosadati, Juan Gómez-Luna, Huawei Li, Xiaowei Li, Ying Wang, Onur Mutlu

Published: 2025, Last Modified: 28 May 2026ASPLOS (2) 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:conf/asplos/HeMGSGLLWM25

Loading