Erstellen eines synthetischen Hundedatensatzes in GTA-V für 3D-Modelle

Ein Forscherteam der University of Surrey hat eine revolutionäre Methode entwickelt, um Fotos von Hunden in detaillierte 3D-Modelle umzuwandeln.

Hundefotos in 3D-Modelle umwandeln

Forscher wollten ein künstliches Intelligenzsystem trainieren, um 2D-Bilder von Hunden zu interpretieren und in ihre 3D-Posen umzuwandeln.

Das Schulungsmaterial? Keine echten Hunde, sondern computergenerierte Bilder aus der virtuellen Welt von GTA V.

Modeltraining mit CGI-Hunden

Moira Shooter, eine an der Studie beteiligte Doktorandin, teilte mit: „Unser Modell wurde in CGI an Hunden trainiert – aber wir konnten damit 3D-Skelettmodelle aus Fotos von Hunden erstellen. echte Tiere.“ Dies könnte es Biologen ermöglichen, verletzte Wildtiere zu erkennen, oder Künstlern dabei helfen, realistischere Tiere im Metaversum zu schaffen.“

Traditionelle Methoden, der KI 3D-Strukturen beizubringen, umfassen die Verwendung realer Fotos neben Daten über die tatsächlichen 3D-Positionen von Objekten, die oft durch Motion-Capture-Technologie gewonnen werden.

Erstellung einer Datenbank virtueller Hundebewegungen

Wenn es jedoch darum geht, diese Techniken bei Hunden anzuwenden, müssen einfach zu viele Schritte ausgeführt werden.

Um ihren Hundedatensatz zu erstellen, modifizierten die Forscher den Code von GTA V, um die menschlichen Charaktere durch Hunde-Avatare zu ersetzen, und zwar durch einen Prozess, der als „Modding“ bekannt ist.

Dies ermöglichte es ihnen, 118 Videos zu produzieren, in denen diese virtuellen Hunde bei unterschiedlichen Aktionen – Sitzen, Gehen, Bellen und Laufen – unter verschiedenen Umgebungsbedingungen gefilmt wurden.

Verwendung des DINOv2-KI-Modells von Meta

In den nächsten Schritten wurde das DINOv2-KI-Modell von Meta aufgrund seiner starken Generalisierungsfähigkeiten verwendet und mit DigiDogs verfeinert, um 3D-Posen aus Einzelansicht-RGB-Bildern genau vorherzusagen.

Die Forscher zeigten, dass die Verwendung des DigiDogs-Datensatzes für das Training dank der Vielfalt der erfassten Erscheinungen und Hundeaktionen zu genaueren und realistischeren 3D-Hundehaltungen führte als diejenigen, die mit Datensätzen aus der realen Welt trainiert wurden.

Ergebnisse und mögliche Anwendungen

Modelle, die mit dem synthetischen DigiDogs-Datensatz trainiert wurden, zeigten eine verbesserte Genauigkeit im Vergleich zu Modellen, die nur mit dem realen RGBD-Dogs-Datensatz trainiert wurden.

Die Ergebnisse übertrafen bestehende Methoden, indem sie detaillierte 3D-Ergebnisse lieferten und einen neuen Maßstab in Bezug auf Realismus und Genauigkeit für die 3D-Hundehaltungsschätzung aus 2D-Bildern setzten, was durch eingehende qualitative und quantitative Auswertungen bestätigt wurde.

Obwohl diese Studie einen großen Fortschritt in der 3D-Tiermodellierung darstellte, räumt das Team ein, dass noch viel zu tun ist, insbesondere um die Art und Weise zu verbessern, wie das Modell den Tiefenaspekt von Bildern (die Z-Koordinate) vorhersagt.

Shooter beschrieb die möglichen Auswirkungen ihrer Arbeit wie folgt: „3D-Posen enthalten so viel mehr Informationen als 2D-Fotos. Von der Ökologie bis zur Animation bietet diese clevere Lösung so viele Einsatzmöglichkeiten.“

Das Papier wurde auf der IEEE/CVF Winter Conference on Computer Vision Applications mit dem Best Paper Award ausgezeichnet, verspricht aber auch viele Anwendungsmöglichkeiten, vom Naturschutz bis hin zur Darstellung digitaler 3D-Objekte in Virtual-Reality-Anwendungen.

Quelle: dailyai.com