ICLR 2025 Workshop Bi-Align Submissions

The Alignment Trilemma: A Theoretical Perspective on Recursive Misalignment and Human-AI Adaptation Dynamics
Tarun Raheja, Nilay Pochhi
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Bidirectional Alignment for Inclusive Narrative Generation
Ken Kawamura
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Representational Difference Clustering
Neehar Kondapaneni, Emily Gu, Oisin Mac Aodha, Pietro Perona
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment
Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan
- Published: 06 Mar 2025, Last Modified: 21 Apr 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Symmetry-Breaking Augmentations for Ad Hoc Teamwork
Ravi Hammond, Dustin Craggs, Mingyu Guo, Jakob Nicolaus Foerster, Ian Reid
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Mitigating Societal Cognitive Overload in the Age of AI: Challenges and Directions
Salem Lahlou
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Learning From Diverse Experts: Behavior Alignment Through Multi-Objective Inverse Reinforcement Learning
Jun-Jie Yang, Qian-You Zhang, Chia-Heng Hsu, Xi Liu, Ping-Chun Hsieh
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Order Independence With Finetuning
Katrina Brown, Reid McIlroy-Young
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Trustworthy AI Must Account for Intersectionality
Jesse C. Cresswell
- Published: 22 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Aligning LLMs with Domain Invariant Reward Models
David Wu, Sanjiban Choudhury
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Value Alignment in the Global South: A Multidimensional Approach to Norm Elicitation in Indian Contexts
Atmadeep Ghoshal, Martim Brandao, Ruba Abu-Salma
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Augmenting Image Annotation: A Human–LMM Collaborative Framework for Efficient Object Selection and Label Generation
HE ZHANG, Xinyi Fu, John Millar Carroll
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop CHIOral
- Readers: Everyone
Inference-time Alignment in Continuous Space
Yige Yuan, Teng Xiao, Li Yunfan, Bingbing Xu, Shuchang Tao, Yunqi Qiu, Huawei Shen, Xueqi Cheng
- Published: 06 Mar 2025, Last Modified: 12 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Scalably Solving Assistance Games
Cassidy Laidlaw, Eli Bronstein, Timothy Guo, Dylan Feng, Lukas Berglund, Justin Svegliato, Stuart Russell, Anca Dragan
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop ICLROral
- Readers: Everyone
PILAF: Optimal Human Preference Sampling for Reward Modeling
Yunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Data-adaptive Safety Rules for Training Reward Models
Xiaomin Li, Mingye Gao, Zhiwei Zhang, Jingxuan Fan, Weiyu Li
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective
Jiawei Huang, Bingcong Li, Christoph Dann, Niao He
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
TRIG-Bench: A Benchmark for Text-Rich Image Grounding
Ming Li, Ruiyi Zhang, Jian Chen, Tianyi Zhou
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment
Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
A Pilot Study of Weak-to-Strong Generalization in Safety, Toxicity, and Legal Reasoning
Ruimeng Ye, Yang Xiao, Bo Hui
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop Poster
- Readers: Everyone
Policy Prototyping for LLMs: Pluralistic Alignment via Interactive and Collaborative Policymaking
Kevin Feng, Inyoung Cheong, Quan Ze Chen, Amy X Zhang
- Published: 06 Mar 2025, Last Modified: 05 May 2025
- ICLR 2025 Bi-Align Workshop CHIOral
- Readers: Everyone