NeurIPS 2024 Workshop ATTRIB Submissions

Inconsistencies In Consistency Models: Better ODE Solving Does Not Imply Better Samples
NeurIPS 2024 Workshop ATTRIB Submission31 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Influence Functions for Scalable Data Attribution in Diffusion Models
NeurIPS 2024 Workshop ATTRIB Submission30 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
BAKU: An Efficient Transformer for Multi-Task Policy Learning
NeurIPS 2024 Workshop ATTRIB Submission28 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification
NeurIPS 2024 Workshop ATTRIB Submission27 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs
NeurIPS 2024 Workshop ATTRIB Submission26 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models
NeurIPS 2024 Workshop ATTRIB Submission23 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty
NeurIPS 2024 Workshop ATTRIB Submission22 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Accumulating Data Avoids Model Collapse
NeurIPS 2024 Workshop ATTRIB Submission21 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Detecting Origin Attribution for Text-to-Image Diffusion Models in RGB and Beyond
NeurIPS 2024 Workshop ATTRIB Submission20 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Algorithmic Phase Transitions in Large Language Models: A Mechanistic Case Study of Arithmetic
NeurIPS 2024 Workshop ATTRIB Submission19 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Evaluating Synthetic Activations composed of SAE Latents in GPT-2
NeurIPS 2024 Workshop ATTRIB Submission18 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Small-to-Large Generalization: Training Data Influences Models Consistently Across Scale
NeurIPS 2024 Workshop ATTRIB Submission17 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Weak-to-Strong Confidence Prediction
NeurIPS 2024 Workshop ATTRIB Submission15 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
SCIURus: Shared Circuits for Interpretable Uncertainty Representations in Language Models
NeurIPS 2024 Workshop ATTRIB Submission14 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Latent Concept-based Explanation of NLP Models
NeurIPS 2024 Workshop ATTRIB Submission13 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
NeurIPS 2024 Workshop ATTRIB Submission11 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Influence-based Attributions can be Manipulated
NeurIPS 2024 Workshop ATTRIB Submission10 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
NeurIPS 2024 Workshop ATTRIB Submission9 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
What's In My Big Data?
NeurIPS 2024 Workshop ATTRIB Submission8 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Most Influential Subset Selection: Challenges, Promises, and Beyond
NeurIPS 2024 Workshop ATTRIB Submission6 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
You can remove GPT2's LayerNorm by fine-tuning
NeurIPS 2024 Workshop ATTRIB Submission4 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone
Approximations to worst-case data dropping: unmasking failure modes
NeurIPS 2024 Workshop ATTRIB Submission1 Authors
- Published: 30 Oct 2024, Last Modified: 14 Jan 2025
- ATTRIB 2024
- Readers: Everyone