EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments

Zefang Liu; Yinzhu Quan

EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments

Zefang Liu, Yinzhu Quan

Published: 21 Nov 2025, Last Modified: 14 Jan 2026GenAI in Finance PosterEveryoneRevisionsBibTeXCC BY 4.0

Keywords: autonomous agents, economic reasoning, web navigation, multimodal LLMs, benchmark

TL;DR: EconWebArena benchmarks autonomous agents on complex economic tasks using real-world websites and multimodal interactions.

Abstract: We present EconWebArena, a benchmark for evaluating autonomous agents on complex economic tasks in realistic web environments. It comprises 360 curated tasks from 82 authoritative websites across domains such as macroeconomics, labor, finance, trade, and policy. Each task requires agents to navigate live sites, interpret structured and visual content, and extract precise, time-sensitive data through multi-step workflows. Tasks are generated with large language models and refined via rigorous human curation to ensure clarity, feasibility, and source reliability. Unlike prior web agent benchmarks, EconWebArena emphasizes fidelity to official economic data and grounded reasoning. We evaluate state-of-the-art multimodal LLMs, analyze failure cases, and conduct ablations on visual grounding, planning, and interaction design. Results show large performance gaps and persistent challenges in navigation and multimodal understanding. EconWebArena thus offers a rigorous testbed for advancing domain-aware, interaction-capable agents in economic data retrieval and reasoning.

Submission Number: 18

Loading