ProcureGym: A Multi-Agent MDP Framework for Modeling National Volume-based Drug Procurement

ProcureGym: A Multi-Agent MDP Framework for Modeling National Volume-based Drug Procurement

ACL ARR 2026 January Submission9121 Authors

06 Jan 2026 (modified: 20 Mar 2026)ACL ARR 2026 January SubmissionEveryoneRevisionsBibTeXCC BY 4.0

Keywords: National Volume-Based Drug Procurement, Multi-agent Simulation, Markov Decision Process, Reinforcement Learning

Abstract: In this paper, we introduce ProcureGym, an open-source, data-driven multi-agent simulation platform that models China's National Volume-Based drug Procurement (NVBP) as a Markov decision process (MDP). Based on real-world data from 7 rounds of NVBP (covering 328 drugs and 2,226 firms), the platform establishes a high-fidelity simulation environment. Within this framework, we evaluate diverse agent models, including Reinforcement Learning (RL), Large Language Model (LLM), and Rule-based algorithms. Experimental results demonstrate that RL agents achieve superior winner alignment and profits. Further analyses show that maximum valid bidding price and procurement volume dominate strategic outcomes. ProcureGym thus serves as a rigorous instrument for assessing policy impacts and formulating future procurement strategies.

Paper Type: Short

Research Area: Computational Social Science, Cultural Analytics, and NLP for Social Good

Research Area Keywords: human behavior analysis, NLP tools for social analysis

Contribution Types: Model analysis & interpretability, Data analysis

Languages Studied: English

Submission Number: 9121

Loading