NeurIPS 2023 Workshop ATTRIB Submissions

Automatic Discovery of Visual Circuits
NeurIPS 2023 Workshop ATTRIB Submission56 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Does It Know?: Probing and Benchmarking Uncertainty in Language Model Latent Beliefs
NeurIPS 2023 Workshop ATTRIB Submission53 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
In Search of a Data Transformation that Accelerates Neural Field Training
NeurIPS 2023 Workshop ATTRIB Submission51 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
NeurIPS 2023 Workshop ATTRIB Submission49 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Attribution Patching Outperforms Automated Circuit Discovery
NeurIPS 2023 Workshop ATTRIB Submission47 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets
NeurIPS 2023 Workshop ATTRIB Submission45 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Backtracking Mathematical Reasoning of Language Models to the Pretraining Data
NeurIPS 2023 Workshop ATTRIB Submission43 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Adversarial Attacks on Neuron Interpretation via Activation Maximization
NeurIPS 2023 Workshop ATTRIB Submission42 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Data Attribution for Segmentation Models
NeurIPS 2023 Workshop ATTRIB Submission40 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Unifying Corroborative and Contributive Attributions in Large Language Models
NeurIPS 2023 Workshop ATTRIB Submission39 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Oral
- Readers: Everyone
The Importance of Prompt Tuning for Automated Neuron Explanations
NeurIPS 2023 Workshop ATTRIB Submission38 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Self-Select: Optimizing Instruction Selection for Large Language Models
NeurIPS 2023 Workshop ATTRIB Submission37 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Threshold KNN-Shapley: A Linear-Time and Privacy-Friendly Approach to Data Valuation (Workshop Version)
NeurIPS 2023 Workshop ATTRIB Submission36 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Divergence at the Interpolation Threshold: Identifying, Interpreting & Ablating the Sources of a Deep Learning Puzzle
NeurIPS 2023 Workshop ATTRIB Submission35 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Efficient Data Valuation for Weighted Nearest Neighbor Algorithms
NeurIPS 2023 Workshop ATTRIB Submission34 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Object Detection in Deep Neural Networks Differs from Humans in the Periphery
NeurIPS 2023 Workshop ATTRIB Submission32 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Is This the Subspace You Are Looking for? An Interpretability Illusion for Subspace Activation Patching
NeurIPS 2023 Workshop ATTRIB Submission31 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
A Simple and Efficient Baseline for Data Attribution on Images
NeurIPS 2023 Workshop ATTRIB Submission27 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Speculative Behavior: An Approach to Large Language Model Evaluation and Optimization
NeurIPS 2023 Workshop ATTRIB Submission26 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Evaluating the Utility of Model Explanations for Model Development
NeurIPS 2023 Workshop ATTRIB Submission25 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Formal Definition of Fingerprints Improves Attribution of Generative Models
NeurIPS 2023 Workshop ATTRIB Submission24 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Outliers with Opposing Signals Have an Outsized Effect on Neural Network Optimization
NeurIPS 2023 Workshop ATTRIB Submission22 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Oral
- Readers: Everyone
Exploring Dataset-Scale Indicators of Data Quality
NeurIPS 2023 Workshop ATTRIB Submission19 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Algorithm Selection with Priority Order for Instances
NeurIPS 2023 Workshop ATTRIB Submission17 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone
Colour versus Shape Goal Misgeneralization in Reinforcement Learning: A Case Study
NeurIPS 2023 Workshop ATTRIB Submission16 Authors
- Published: 27 Oct 2023, Last Modified: 08 Dec 2023
- ATTRIB Poster
- Readers: Everyone