Token-Level Early Fusion Model Bridging Text and 3D Electron Density Grids in Chemistry

Eduardo Soares; Emilio Vital Brazil; Victor Y. Shirasuna; Henrique de Morais Porto; Enzo Reis de Oliveira; Caio Rodrigues Gama; Daniel Djinishian de Briquez; Sandro Rama Fiorini; Marcelo Nery dos Santos; Nathaniel H. Park; Dmitry Zubarev

Token-Level Early Fusion Model Bridging Text and 3D Electron Density Grids in Chemistry

Eduardo Soares, Emilio Vital Brazil, Victor Y. Shirasuna, Henrique de Morais Porto, Enzo Reis de Oliveira, Caio Rodrigues Gama, Daniel Djinishian de Briquez, Sandro Rama Fiorini, Marcelo Nery dos Santos, Nathaniel H. Park, Dmitry Zubarev

19 Sept 2025 (modified: 11 Feb 2026)Submitted to ICLR 2026EveryoneRevisionsBibTeXCC BY 4.0

Keywords: early-fusion, multimodal foundation model, 3D density grids, textual information

Abstract: We present 3DGrid-LLM, a multimodal foundation model designed to integrate natural language with three-dimensional electron density grids for applications in molecular and materials science. The architecture extends a large decoder-only language model by incorporating discrete volumetric representations obtained through a 3D VQGAN, enabling joint token-level processing of spatial and textual modalities within a unified framework. Pre-trained on a diverse corpus of molecular and materials datasets, 3DGrid-LLM supports bidirectional text–grid generation, multimodal question answering, and retrieval-augmented 3D reconstruction. Comprehensive evaluations demonstrate consistent improvements over baseline methods in multimodal VQA, chemically informed text generation, and property-aligned retrieval tasks, yielding outputs that are both accurate and physically consistent.

Primary Area: applications to physical sciences (physics, chemistry, biology, etc.)

Submission Number: 21075

Loading