Teaching RAG to Play Fair: Assessing and Mitigating Encoder-Only PLM Algorithmic Bias

Alvin Li

Teaching RAG to Play Fair: Assessing and Mitigating Encoder-Only PLM Algorithmic Bias

Alvin Li

20 Sept 2025 (modified: 12 Feb 2026)ICLR 2026 Conference Desk Rejected SubmissionEveryoneRevisionsBibTeXCC BY 4.0

Keywords: Retrieval-Augmented Generation, Algorithmic Fairness, Language Models

TL;DR: We study fairness in RAG encoders, showing biases in PLMs, validating intrinsic metrics as predictors of retrieval disparities, and demonstrating that lightweight debiasing (LoRA, WiSE-FT, masking) reduces bias with minimal quality loss.

Abstract: Retrieval-Augmented Generation (RAG) reduces hallucinations in large language models (LLMs) by retrieving relevant external documents. Central to this process are encoder-only pre-trained language models (PLMs), which map queries and candidate passages into semantic vectors for retrieval. While most fairness research in RAG has focused on biases in generated text or corpora, the encoder’s role as the retrieval bottleneck remains underexplored. In this work, we systematically assess and mitigate representation-level bias in encoder-only PLMs used within RAG systems. We first diagnose bias localization using intrinsic metrics (Sentence Embedding Association Tests and probing classifiers), and show that demographic information is systematically encoded in mid-to-upper layers. We then evaluate whether intrinsic scores correlate with extrinsic disparities measured by statistical parity and equalized odds on the BBQ benchmark, finding moderate-to-strong correlations that establish intrinsic diagnostics as valid predictors of real-world unfairness. Finally, we benchmark lightweight debiasing methods—Low-Rank Adaptation (LoRA), WiSE-FT partial fine-tuning, and targeted attention-head masking—and integrate them into a modular fairness-aware framework. Our results demonstrate that these interventions meaningfully reduce bias with minimal degradation to retrieval quality, highlighting a path towards fairer, representation-aware RAG systems.

Primary Area: alignment, fairness, safety, privacy, and societal considerations

Submission Number: 23860

Loading