Verification of multi-objective Markov models

Tim Quatmann

Verification of multi-objective Markov models

Tim Quatmann

Published: 01 Jan 2023, Last Modified: 19 Aug 2024undefined 2023EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Probabilistische Systeme werden von Umgebungsereignissen beeinflusst, welche mit einer gewissen Wahrscheinlichkeit auftreten. Damit solche Systeme einwandfrei funktionieren, sind häufig mehrere Ziele, also quantitative Leistungsmaße wie die Ausfallwahrscheinlichkeit oder die erwartete Zeit bis zur Vervollständigung einer Aufgabe, relevant. Manchmal stehen diese Ziele im Konflikt: Das Minimieren der Ausfallwahrscheinlichkeit kann möglicherweise bedeuten, dass sich die Zeit zur Aufgabenfertigstellung erhöht. Kompromisse müssen gefunden werden. Wir betrachten Markow-Modelle, insbesondere Markow Entscheidungsprozesse (MDPs) und Markow Automaten (MAs). Diese zustandsbasierten Modellformalismen beschreiben ein System in dessen zufälliger Umgebung. Von einem Initialzustand ausgehend ist das Transitionsverhalten in MDPs durch probabilistische und nichtdeterministische Wahlen gegeben. MAs erweitern MDPs zusätzlich durch exponentiell verteilte, kontinuierliche Verzögerungen. Zuständen und Transitionen können Nutzenwerte zugewiesen werden, sodass verschiedene Systemgrößen wie Energieverbrauch, Produktivität oder monetäre Kosten modelliert werden können. Die Systemziele werden formal spezifiziert, indem (unendliche) Systemläufe auf einen Wert abgebildet werden. Beispielsweise kann dies die Summe der Kosten oder der durchschnittliche Energieverbrauch auf dem jeweiligen Systemlauf sein. Damit der Erwartungswert eines so spezifizierten Zieles wohldefiniert ist, muss der Nichtdeterminismus mithilfe einer Strategie aufgelöst werden, welche die Entscheidungen eines Systemcontrollers widerspiegelt. Verschiedene Strategien führen zu verschiedenen erwarteten Zielwerten. Die Verifikation von MDPs und MAs mit mehreren Zielen analysiert das Zusammenspiel zwischen den betrachteten Zielen und identifiziert, welche Kompromisse zwischen erwarteten Zielwerten möglich, d. h. von einer Strategie realisierbar sind. Wir untersuchen praktisch effiziente Methoden, um die Menge der realisierbaren Lösungen zu berechnen. Dazu führen wir ein algorithmisches Grundgerüst ein und instanziieren dieses bezüglich verschiedener Ziele, wie die (nicht rabattierte) Gesamtsumme der Nutzenwerte bis zum Erreichen eines Zielzustandes, der langfristige, durchschnittliche Nutzenwert sowie durch Nutzenbedingungen eingeschränkte Ziele. Wir schätzen die Fehler von approximativen Methoden ab, sodass korrekte Unter- und Überapproximationen entstehen. Außerdem betrachten wir multidimensionale Quantile, bei denen die Frage ist, unter welchen Nutzenbedingungen ein gegebener Zielwert ermöglicht werden kann. Schließlich untersuchen wir die Einschränkung auf simple Strategien, d. h. Strategien, die nicht randomisieren und nur eine eingeschränkte Merkfähigkeit haben. Alle präsentierten Ansätze sind im hochmodernen probabilistischen Model Checker Storm integriert. Eine ausführliche Evaluation dieser Implementierung auf einer breiten Menge von Benchmarks mit mehreren Zielen zeigt, dass unsere Ansätze auf große Modelle mit Millionen von Zuständen skalieren. Probabilistic systems evolve based on environmental events that occur with a certain probability. For such systems to perform well, we are often interested in multiple objectives, i.e., quantitative performance measures like the probability of a failure or the expected time until task completion. Sometimes, these objectives conflict with each other: minimizing the failure probability possibly means completing the task takes longer. Compromises need to be found. We consider Markov models---particularly Markov decision processes (MDPs) and Markov Automata (MAs). These state-based modeling formalisms describe a system in its random environment. Starting from an initial state, the transitioning behavior in MDPs is determined by probabilistic and nondeterministic choices. MAs further extend MDPs by exponentially distributed continuous time delays. Rewards can be attached to states or transitions to model system quantities such as energy consumption, productivity, or monetary costs. Objectives are formally specified by a mapping from (infinite) system executions to the value of interest, e.g., the total accumulated costs or the average energy consumption. The expected value of an objective is defined once the nondeterminism is resolved using a strategy---intuitively reflecting the choices of a system controller. Different strategies induce different expected objective values. Multi-objective verification of MDPs and MAs analyzes the interplay between the considered objectives and identifies which trade-offs between expected objective values are possible, i.e., achievable by some strategy. We study practically efficient methods to compute the set of achievable solutions. For this, we establish a general framework and its instantiation for (undiscounted) total reachability reward objectives, long-run average reward objectives, and reward-bounded objectives. We propagate the errors made by approximative methods, yielding sound under- and over-approximations. We further consider multi-dimensional quantiles that ask under which reward constraints a given objective value is achievable. Finally, we investigate a setting in which the strategies must be simple, i.e., non-randomized and with limited memory access. All presented approaches are integrated into the state-of-the-art probabilistic model checker Storm. An extensive evaluation of this implementation on a broad set of multi-objective benchmarks shows that our approaches scale to large models with millions of states. Quatmann, Tim; Katoen, Joost-Pieter; Randour, Mickael

Loading