Neural scaling laws for multi-agent reinforcement learning

Published: 01 Jan 2024, Last Modified: 12 May 2025undefined 2024EveryoneRevisionsBibTeXCC BY-SA 4.0
Abstract: We show neural scaling laws appear in a reinforcement learning algorithm, AlphaZero, which exhibit clear power-law scaling of their playing ability with the resources used to train them. We analyze other scaling phenomena in AlphaZero, as well as their origin and other RL scaling cases.Der Bereich des Deep Learning hat in den letzten Jahren einen beispiellosen Aufschwung neuer Technologien erlebt, die nicht nur in der wissenschaftlichen Gemeinschaft, sondern auch in der breiten Öffentlichkeit großen Eindruck hinterlassen haben. In kurzer Zeit haben sich generative maschinelle Lernmodelle von akademischen Proof-of-Concept-Publikationen zu Anwendungen entwickelt, die von Millionen von Menschen für reale Aufgaben genutzt werden. Dieser Leistungssprung wurde zum Teil durch das Training großer neuronaler Netzwerkmodelle auf großen Datensätzen ermöglicht, wodurch sich sowohl die Anzahl der Modellparameter als auch die Größe des Datensatzes im Vergleich zu früheren Modellen um Größenordnungen erhöhte. Bei großen Sprachmodellen, wie sie für die ChatGPT-Anwendung verwendet werden, belaufen sich die Kosten für das Training auf Millionen von Dollar. Die exponentiell divergierenden Kosten für das Training großer Modelle machten es dringend erforderlich, die Grundlagen der Deep-Learning-Theorie zu überdenken und die Beziehungen zwischen Trainingsressourcen und Modellleistung zu erforschen. Versuche, die Abhängigkeit des erfolgreichen Trainings neuronaler Netze von der Zeit- und Datenmenge, die für ihr Training aufgewendet wird, zu quantifizieren, führten zu dem überraschenden Fund von Potenzgesetzen. Diese Potenzgesetze modellieren die Beziehung zwischen Modellleistung und verschiedenen Trainingsressourcen und wurden für verschiedene neuronale Architekturen, Anwendungsfälle und Ressourcenskalen verifiziert. Das Wissen um diese Potenzgesetze, die allgemein als neuronale Skalierungsgesetze bekannt sind, hat dazu beigetragen, dass sich führende Unternehmen für das Training großer, teurer Modelle entschieden haben, was in den letzten Jahren zu einem unglaublichen Erfolg generativer Modelle geführt hat. Skalierungsgesetze besagen üblicherweise, dass sich der Testverlust konsistent und vorhersehbar mit der Modellgröße, der Rechenzeit oder den Daten verbessert und dabei einem Potenzgesetz für jede dieser Ressourcen folgt. Die korrekte Berechnung der Exponenten dieser Potenzgesetze ermöglicht es, die optimale Zuweisung von Ressourcen für das Training großer neuronaler Netzmodelle zu ermitteln. Seit der Entdeckung dieser Gesetze wurden Versuche unternommen, die Leistungsskalierung in vielen Teilbereichen des Deep Learning zu quantifizieren. Während die Skalierung nach einem Potenzgesetz in vielen Anwendungen allgegenwärtig zu sein scheint, gab es bis vor kurzem keine Hinweise auf Skalierung gemäß Potenzgesetzen im Bereich des Reinforcement Learning (RL). Das Fehlen klarer Skalierungsgesetze beim RL wirft die Frage auf, ob diese Gesetze nur ein Phänomen von überwachten Lernmodellen sind oder ob sie beim RL durch andere Faktoren verdeckt werden. In dieser Arbeit präsentieren wir einen der ersten eindeutigen Beweise für eine Leistungsskalierung nach dem Potenzgesetz in einem RL Algorithmus. Wir zeigen den Beweis, dass neuronale Netzwerk-Agenten, die mit einem beliebten RL Algorithmus, AlphaZero, trainiert wurden, eine eindeutige Potenzgesetzskalierung ihrer Spielfähigkeit mit den für ihr Training verwendeten Ressourcen aufweisen können. Wir erörtern eine mögliche Erklärung für das Fehlen von Skalierungsgesetzen beim RL und bringen dies mit den einzigartigen Leistungsmetriken in diesem Bereich in Verbindung. Es folgt eine Analyse einer Vielzahl von Experimenten zu skalierungsbezogenen Phänomenen in AlphaZero. Schließlich präsentieren wir Beweise für den möglichen Ursprung der Skalierungsgesetze des RL und stellen eine Verbindung zu den Skalierungsgesetzen in Sprachmodellen her und zeigen, wie eine kluge Wahl der Leistungsmetrik die Skalierung nach einem Potenzgesetz in Fällen aufzeigen kann, in denen traditionelle Metriken versagen. Diese Arbeit bietet eine in sich geschlossene Zusammenfassung der in unseren Experimenten verwendeten Methoden und baut einen Wissensfundus auf, sodass ein Hintergrund in theoretischer Physik ausreicht und kein Wissen über Deep Learning vonnöten ist, um diese Arbeit zu verstehen. Die Grundlagenkapitel decken das gesamte notwendige Wissen ab, von den Grundlagen des maschinellen Lernens über RL und den AlphaZero-Algorithmus bis hin zu einer detaillierten Zusammenfassung der aktuellen Forschung zum neuronalen Skalierungsgesetzen.
Loading

OpenReview is a long-term project to advance science through improved peer review with legal nonprofit status. We gratefully acknowledge the support of the OpenReview Sponsors. © 2025 OpenReview