A Multi-LLM Ensemble Approach for Motif Discovery

A Multi-LLM Ensemble Approach for Motif Discovery

NeurIPS 2025 Workshop FM4LS Submission63 Authors

06 Sept 2025 (modified: 18 Nov 2025)Submitted to NeurIPS 2025 2nd Workshop FM4LSEveryoneRevisionsBibTeXCC BY 4.0

Keywords: LLMs; Motif Discovery; Ensemble Methods

TL;DR: We tested 5 AI models (GPT, Claude, etc.) on finding DNA regulatory motifs and found that combining their predictions achieves 82.6% accuracy—much better than any single model alone.

Abstract: Regulatory motif discovery in genomic sequences remains challenging despite advances in computational biology. While large language models (LLMs) show promise for genomic analysis, individual models exhibit varying performance due to different training paradigms. We present a pilot study exploring multi-LLM ensemble for regulatory motif discovery, evaluating five foundation models: Claude Opus, GPT-4o, GPT-5, Gemini Pro, and Llama-4. Using synthetic sequences with 46 embedded regulatory motifs across 9 families, we collected 50 independent predictions to assess ensemble feasibility. Our ensemble approach achieved 82.6\% accuracy with 84.4\% precision and 83.5\% F1-score, with strongest intermodel agreement between GPT-5 and Llama-4 (0.23 Jaccard similarity). E-box motifs dominated ensemble predictions (80\%), while model agreement varied substantially, suggesting complementary detection capabilities. This preliminary investigation demonstrates the potential for ensemble approaches in genomic sequence analysis, though challenges remain in achieving robust cross-model ensemble. Our findings provide baseline metrics for multi-LLM applications and highlight the need for specialized training approaches in biological foundation models.

Submission Number: 63

Loading