Abstract: Tiefe neuronale Netze ermöglichen das Erlernen von komplexeren hierarchischen Repräsentationen und machen somit das Ende-zu-Ende Lernen des optischen Flusses attraktiv. Jedoch erfordert das Trainieren solcher Modelle große Datensätzen und die Erzeugung von Grundwahrheiten für reale Bilder ist sehr aufwendig. Aufgrund der Schwierigkeiten dichte Grundwahrheiten zu erfassen, sind existierende Datensätze begrenzt in ihrer Größe und Vielfalt. Wir präsentieren zwei Strategien, um diesen Datenmangel zu lösen: Zunächst schlagen wir einen Ansatz zur Erstellung neuer realen Datensätze vor, wobei wir mithilfe von Hochgeschwindigkeitskameras strenge zeitliche Annahmen ausnutzen. Wir lösen dieses Problem, indem wir Pixel durch dichte Raum-Zeit-Volumen verfolgen, die mit der Hochgeschwindigkeitskamera aufgenommen wurden. Unser Modell nutzt die Linearität kleiner Bewegungen und schätzt Verdeckungen über mehrere Bilder. Mit unserer Technik sind wir in der Lage, außerhalb des Labors in natürlicher Umgebung genaue Referenzflussfelder zu erzeugen. Außerdem zeigen wir, wie unsere Vorhersagen genutzt werden können, um Bilder mit realistischer Bewegungsunschärfe zu ergänzen. Wir bewerten die Qualität der erzeugten Flussfelder mit synthetischen und realen Datensätzen. Schließlich generieren wir einen neuartigen, herausfordernden optischen Fluss Datensatz, indem wir unsere Methode auf Daten einer Hochgeschwindigkeitskamera anwenden. Wir nutzen diesen Datensatz, um den Stand der Technik im optischen Fluss unter unterschiedlich starker Bewegungsunschärfe zu analysieren. Außerdem untersuchen wir, wie man aus Daten ohne Grundwahrheiten anspruchsvolle Modelle lernen kann. Unüberwachtes Lernen ist eine vielversprechende Richtung, aber die Leistung der derzeitigen Methoden ist immer noch begrenzt. Insbesondere das Fehlen einer korrekten Handhabung von Verdeckungen in dem gebräuchlichen fotometrischen Vergleich stellt eine große Fehlerquelle dar. Während die meisten optischen Fluss Methoden Paare von aufeinanderfolgenden Einzelbildern verarbeiten, kann eine bessere Schätzung von Verdeckungen realisiert werden, wenn mehrere Einzelbilder betrachtet werden. Wir entwickeln eine Methode für das unüberwachte Lernen von optischem Fluss und Verdeckungen mit mehreren Bildern. Genauer gesagt, nutzen wir die minimale Konfiguration von drei Bildern, um den fotometrischen Vergleich zu verstärken und explizit Verdeckungen zu schätzen. Wir zeigen, dass unsere Formulierung die bestehenden unüberwachten Zwei-Bild-Methoden übertrifft und sogar vergleichbare Ergebnisse mit einigen überwachten Methoden liefert. Beide Strategien sind für künftige Fortschritte im Bereich des optischen Flusses von wesentlicher Bedeutung. Während neue Datensätze es ermöglichen, die Fortschritte zu messen und neue Ansätze zu vergleichen, erlaubt das unüberwachte Lernen die Nutzung neuer Datenquellen, um bessere Modelle zu trainieren.
0 Replies
Loading