Extrahieren von räumlichem Wissen aus Leichtathletikübertragungen für die monokulare 3D-Posenschätzung eines Menschen
Scientific Reports Band 13, Artikelnummer: 14031 (2023) Diesen Artikel zitieren
80 Zugriffe
Details zu den Metriken
Das Sammeln großer Datensätze zur Untersuchung der menschlichen Fortbewegung ist ein teurer und arbeitsintensiver Prozess. Methoden zur dreidimensionalen Schätzung der menschlichen Pose in freier Wildbahn werden immer genauer und könnten bald ausreichen, um die Sammlung von Datensätzen zur Analyse der Laufkinematik anhand von Fernsehübertragungsdaten zu unterstützen. Im Bereich der biomechanischen Forschung spielen kleine Unterschiede in den 3D-Winkeln eine wichtige Rolle. Genauer gesagt müssen die Fehlermargen des Datenerfassungsprozesses kleiner sein als die erwartete Variation zwischen den Athleten. In dieser Arbeit schlagen wir eine Methode vor, um mithilfe von Spurmarkierungen auf die globale Geometrie von Leichtathletik-Stadionaufzeichnungen zu schließen. Indem wir mithilfe dieser globalen Geometrie geschätzte 3D-Skelette zurück in das Bild projizieren, zeigen wir, dass die aktuellen 3D-Methoden zur Schätzung der menschlichen Pose (noch) nicht genau genug sind, um in der Kinematikforschung eingesetzt zu werden.
Die Anwendung der Human Pose Estimation (HPE) im Sport erfreut sich immer größerer Beliebtheit. Eine aktuelle Übersicht zeigt eine Fülle möglicher Anwendungen1. Diese reichen von der Schätzung typischer Gangparameter2 über die Erkennung „schlechter Posen“3 bis hin zum Kampfsporttraining4. Zwar gibt es eine Reihe von Veröffentlichungen, die eine bemerkenswerte Leistung bei der Erkennung spezifischer Aktionen belegen, es wurde jedoch nicht viel Forschung betrieben, um diese Methoden zur Datenerfassung auf die Forschung in den Sportwissenschaften anzuwenden. Mithilfe großer Mengen kinematischer Daten von Weltklasseläufern könnten wir beispielsweise an der Beantwortung von Fragen arbeiten wie: Was sind die Kennzeichen einer großartigen Laufform? Diese scheinbar grundlegende Frage ist noch nicht vollständig beantwortet5, da weitere Untersuchungen zu den Bewegungsmustern des gesamten Körpers beim Laufen erforderlich sind.
Es gibt große Unterschiede in der menschlichen Fortbewegung und es gibt keine einzige richtige Laufform oder -technik5,6. Dennoch hat sich gezeigt, dass die Laufkinematik bis zu 94 % der Varianz der Laufökonomie7 bei unerfahrenen Sportlern ausmacht. Bisher gibt es kein einheitliches Modell zur Bestimmung der Laufeffizienz und Bewertung der Laufkinematik. Stattdessen befasst sich die Literatur mit isolierten Aspekten der Laufform wie der Fersengeschwindigkeit oder dem Oberschenkelstreckwinkel8. Um allgemeinere Aussagen zu treffen und ein ganzheitlicheres Laufmodell zu erstellen, bräuchten wir große, hochdetaillierte Datensätze der Laufkinematik. Der herkömmliche kinematische Laboraufbau ist sehr kostspielig und zeitintensiv9. Es verwendet Markierungen, die am Athleten angebracht werden, und verwendet Kameras mit sehr hoher Geschwindigkeit und hoher Präzision. Zwar gibt es Ansätze zur Validierung von Bildverarbeitungssystemen im Labor10, doch die Einschränkungen der Laborumgebung bleiben bestehen: Es ist schwierig, Weltklassesportler für diese Untersuchungen zu gewinnen, und es ist praktisch unmöglich, einen ausreichend großen Datensatz zu sammeln, um alle möglichen Schwankungen zwischen ihnen zu berücksichtigen Sportler.
Andererseits könnte ein rein visionsbasierter Ansatz zur Erhebung derselben Daten eine kostengünstige und hoch skalierbare Alternative sein. Ein solcher Ansatz müsste jedoch anhand von Goldstandardmessungen validiert werden. Wenn es zuverlässig genug wäre, wäre es möglich, vorhandene Aufzeichnungen von Fernsehsendungen zu nutzen, um umfangreiche Datensätze zu sammeln. Aufgrund der dichten Aufzeichnungshistorie wäre es möglich, Langzeitstudien an einzelnen Athleten durchzuführen, um deren Veränderungen in der Kinematik sowohl über die Zeit als auch über den Verlauf eines einzelnen Rennens zu überwachen. Faktoren wie Müdigkeit in Kombination mit Tempo und Rennstrategie können untersucht werden, die in einer Laborumgebung nicht zugänglich sind.
Um die 3D-Posenschätzung von Menschen in freier Wildbahn zu validieren und als Forschungsinstrument für die Sportwissenschaft zu nutzen, gibt es glücklicherweise eine große Untergruppe von Laufveranstaltungen, die die Ableitung zusätzlicher Informationen aus vorhandenem Filmmaterial ermöglichen sollte: Rennen in einem Leichtathletikstadion. Die Fahrbahnmarkierungen sowie zusätzliche Startblock- und Ziellinienmarkierungen sind zwischen den Austragungsorten standardisiert. Mithilfe dieser Marker ist es möglich, die Kamera im Stadion zu triangulieren und so die vollständige 3D-Szene zu rekonstruieren.
In diesem Artikel zeigen wir, dass es möglich ist, 3D-Szeneninformationen aus gewöhnlichen (und historischen) Leichtathletikaufzeichnungen zu extrahieren. Wir konstruieren programmgesteuert alle möglichen extrinsischen und intrinsischen Kameraparameter für einen bestimmten Frame. Darüber hinaus ermitteln wir die exakte Szenengeometrie für eine Reihe von Testvideosequenzen. Anhand dieser tatsächlichen Szenengeometrie demonstrieren wir Mängel und Möglichkeiten aktueller monokularer 3D-HPE-Methoden.
Abb. 1 veranschaulicht den üblichen 3D-Prozess zur Schätzung der menschlichen Pose. Während der Aufnahme wird das tatsächliche Skelett (a) in das Fernsehübertragungsmaterial projiziert (b), wodurch 3D-Informationen über die Welt entfernt werden (e). Die Verwendung eines 2D-Skeletts (c) zur Schätzung einer 3D-Pose (d) impliziert eine bestimmte 3D-Geometrie (f) oder nutzt sogar explizite 3D-Annahmen über die Szene. Skelette aus 2D-HPE stimmen sowohl mit der tatsächlichen 3D-Pose und -Geometrie (a)\(\circ \)(e)=(c) als auch mit der geschätzten Pose und impliziten Geometrie (d)\(\circ \)( überein. f)=(c) (\(\circ \)-Operator: „Projektskelett unter Verwendung von Geometrie“). Wenn die implizierte Geometrie korrekt wäre (und somit mit der tatsächlichen Geometrie übereinstimmt), würde die geschätzte Pose genau mit der tatsächlichen 3D-Pose übereinstimmen. In unseren Experimenten messen wir die Abweichung zwischen (d)\(\circ \)(e) und (c). Wenn die tatsächliche 3D-Pose (a) gleich der geschätzten 3D-Pose (d) ist, dann ist (d)\(\circ \)(e)=(c). Wir stellen jedoch fest, dass (d)\(\circ \)(e) und (c) deutlich voneinander abweichen. Wir schließen daraus, dass der erwartete Fehler zwischen der geschätzten 3D-Pose und der tatsächlichen 3D-Pose ihre Verwendung für die kinematische Forschung undurchführbar macht.
Überblick über den gängigen 3D-Prozess zur Schätzung der menschlichen Pose (HPE). Das reale 3D-Skelett des Sportlers (a) wird in Bild (b) projiziert. Während dieses Schritts geht die tatsächliche Szenengeometrie (Kameraausrichtung und Standort für den Athleten) (e) verloren. Ein 2D-Skelett kann über 2D-HPE (c) zuverlässig mit Anmerkungen versehen oder geschätzt werden. Das Wiederherstellen einer 3D-Pose (d) aus den 2D-Gelenkstellen impliziert eine bestimmte Geometrie (f). Beide Kombinationen aus tatsächlicher Pose plus Geometrie (a) und (e) und geschätzter Pose plus impliziter Geometrie (d) und (f) führen zu derselben zweidimensionalen Gelenkpositionsprojektion (c) (vgl. dicke blaue Pfeile).
Die Hauptbeiträge dieser Arbeit sind: (1) Wir zeigen, dass es bei der Projektion monokularer 3D-HPE in 2D für aktuelle Methoden in einem Szenario einen erheblichen Fehler gibt, der im Schulungsabschnitt „Experimente“ nicht beobachtet wurde. (2) Zu diesem Zweck entwickeln wir eine neuartige Methode, um alle möglichen Szenengeometrien aufzudecken, die nur auf dem Wissen über einen einzelnen Fluchtpunkt basieren – Abschnitt „Methode“. (3) Wir erreichen einen einzigen Freiheitsgrad für die Auswahl der 3D-Geometrie und die manuelle Kommentierung von 158 Frames der Leistungen internationaler Spitzensportler. (4) Wir zeigen, dass aktuelle monokulare 3D-HPE-Methoden (selbst wenn sie auf zusätzlichen Daten trainiert werden) nicht auf diese Daten verallgemeinern.
Monokulare 3D-Human-Pose-Estimation-Methoden (HPE) greifen auf abgeflachte Informationen über die Welt zurück: Bei der Aufnahme des Bildes werden die tatsächlichen 3D-Weltkoordinaten in 2D auf die Bildebene projiziert. Die Wiederherstellung einer dreidimensionalen menschlichen Pose aus diesen 2D-Informationen impliziert, dass versucht wird, diese verlorenen Informationen aus der Szene wiederherzustellen (vgl. Abb. 1). Für 2D-HPE ist es möglich, vorhandene Bilder manuell zu kommentieren, ohne auf den ursprünglichen Aufnahmeprozess zugreifen zu müssen. Die gängigsten Datensätze und Benchmarks verwenden beliebige öffentlich verfügbare Bilder und kennzeichnen diese mithilfe von Crowdsourcing11,12 dicht. Unter Verwendung dieser Datensätze und im Wettbewerb mit diesen Benchmarks kommen die aktuellen hochmodernen Methoden im 2D-HPE immer näher an die Leistung auf menschlicher Ebene heran13,14,15. Im Gegensatz dazu müssen für 3D-HPE für die Trainingsdaten Ground-Truth-Posendaten aufgezeichnet werden, was einen komplexeren Laboraufbau erfordert. Beispielsweise besteht der Datensatz „human3.6m“ aus einer Gruppe von 11 Akteuren in 17 verschiedenen Szenarien, die mit 4 synchronisierten Kameras und markerbasierter Bewegungserfassung aufgezeichnet wurden16.
Ein Ansatz für 3D-HPE basiert auf Videodaten. Wenn ein System ein 2D-Skelett über mehrere aufeinanderfolgende Bilder hinweg verfolgen kann, kann es diese Bilder kombinieren und die kombinierte Aufgabe lösen, ein 3D-Skelett vorherzusagen, das alle 2D-Projektionen der Menschen in der Szene erklärt17,18,19. Es gibt eine Vielzahl von Werken in diesem Sinne, bei denen Konsistenz durch die Nutzung der Gliedmaßenlänge17, realistischer Bewegung20 oder des zeitlichen Kontexts18 erreicht wird. Eine andere Klasse von Methoden versucht, das Problem der Wiederherstellung der 3D-Informationen der menschlichen Posen durch gleichzeitige Vorhersage der Tiefe des aktuellen Bildes zu lösen21,22,23. Diese Methoden müssen nicht unbedingt mit Videoinformationen kombiniert werden. Durch die Vorhersage der Entfernung jedes Objekts, jeder Person und jeder Oberfläche im Bild zur Kamera erstellen diese Methoden ein sogenanntes 2,5D-Bild, das mit 2D-HPE kombiniert werden kann, um 3D-Posen abzuleiten. Moderne Ansätze lösen diese beiden Aufgaben gleichzeitig und führen zu einer Voreingenommenheit hinsichtlich der möglichen Konfigurationen des 3D-Skeletts. In ihrer Studie21 haben Sarandi et al. Modellieren Sie zusätzlich die intrinsischen Kameraparameter, um ein hochmodernes System für monokulare 3D-HPE in freier Wildbahn zu erhalten (im Folgenden als MeTRAbs bezeichnet).
Um Kameraparameter abzuschätzen, kann man auch sportspezifisches Domänenwissen nutzen24,25,26,27. Diese Methoden gleichen eine bekannte Gerichts- oder Feldvorlage mit dem sichtbaren Bild ab, um eine Projektionstransformation abzuleiten. Insbesondere enthalten diese Vorlagen Ecken und orthogonale Linien, wodurch eindeutige Fluchtpunkte erkennbar sind. Im Gegensatz dazu leitet unsere Methode die 3D-Geometrie der Szene nur unter Verwendung loser Einschränkungen paralleler Linien (mit bekanntem Abstand), unter Verwendung eines einzigen Fluchtpunkts und zeitlicher Konsistenz ab.
Computer Vision für die Kinematik im Sport Im Rahmen der aktuellen Forschung zur Gang- und Laufkinematik finden Methoden des maschinellen Lernens immer mehr Anwendung zur Datenerfassung28 und zum Aufdecken von Signalen in großen Datensätzen29,30. Es gibt große Unterschiede in der Laufausführung zwischen den Probanden5,6. Um die Ganzkörperkinematik des Laufens zu untersuchen und Signale aufzudecken, die über den Vergleich einzelner Aspekte hinausgehen, sind daher kombinierte Datensätze vieler Läufer erforderlich. Es ist bekannt, dass zum Erkennen bestimmter Gangmerkmale große Datenmengen erforderlich sind31,32.
Xu et al.31 experimentierten mit einer Kombination aus kinematischen (Bewegung) und kinetischen (Kräften) Daten, um zu versuchen, Unterschiede in den Gangmustern von Läufern mit geringer und hoher Laufleistung zu verstehen. Sie fanden heraus, dass Knöchel und Knie das Signal in der Sagittalebene (orthogonale Sicht zur Bewegungsrichtung) des Läufers übertragen. Anhand eines Datensatzes in der Größenordnung von Hunderten von Läufern trainieren sie ein neuronales Netz, um sie in verschiedene diskrete Kategorien wöchentlicher Laufleistung zu klassifizieren, und analysieren dann die gelernten Gewichte. Allerdings erkennen die Autoren an, dass es aufgrund der großen Variation in den Gangmustern unmöglich ist, über die Vorhersage der wöchentlichen Laufleistung hinaus irgendwelche Aussagen höherer Ordnung abzuleiten.
Es gibt Probleme bei der Übertragung von Laborergebnissen zum Laufen auf einem Laufband auf die Natur. Beispielsweise ergaben unabhängige Untersuchungen zur Messung der Kniewinkelentwicklung zwischen Indoor- und Outdoor-Laufen Unterschiede von 2–3\(^{\circ }\)33,34. Selbst solche geringfügigen Winkelunterschiede können die Laufökonomie für unerfahrene Sportler verändern7. Rendos et al.9 zeigen, dass es bei Triathleten einen signifikanten Unterschied von 2–4\(^{\circ }\) in der Kniebeugung zwischen dem Aufwärmen und während der Übergangsphase eines Rennens gibt. Insgesamt deuten diese Ergebnisse darauf hin, dass das Laufen vor Ort am besten untersucht wird und dass eine hohe Winkelgenauigkeit (unter 3\(^\circ \) Fehler) erforderlich ist. Dies motiviert unsere Studie: Unser Ziel ist es, die Genauigkeit der monokularen 3D-HPE anhand von TV-Aufzeichnungen von Läufen im Gelände zu validieren.
Kamerakalibrierung und Sportplatzregistrierung Die Kalibrierung der Kamera anhand vorhandener Übertragungsaufnahmen wurde zur Analyse von Sportereignissen verwendet. Die folgenden Arbeiten nutzen die Tatsache, dass die Abmessungen und Linienmarkierungen für Ballsportarten bekannt sind: Chen und Little generieren synthetische Daten mit bekannten 2D-3D-Korrespondenzen, um ein siamesisches Netzwerk zu trainieren, das die Ausrichtung einer festen Kamera grob vorhersagt. Sie verfeinern die anfängliche Vermutung anhand der Unterschiede zwischen der simulierten Szene und den Kanten im tatsächlichen Bild35. Chu et al.36 erweitern diese Idee, indem sie spärliche Schlüsselpunkte anstelle vollständiger Linienerkennungen zulassen. Theiner und Ewerth schlagen eine Methode vor, die die Aufgabe in einem einzigen Schuss löst, anstatt eine anfängliche Vermutung zu verfeinern37. Alle diese Methoden erkennen zunächst Schlüsselpunkte und Ecken bekannter Linien im Bild und berechnen dann eine Homographie, die die Bildpunkte einer 3D-Szene zuordnet, die wiederum die absolute Position der Kamera im Stadion bestimmt. In unserem Szenario sind solche Ansätze nicht anwendbar, da wir nur den Abstand zwischen parallelen Linien kennen, aber nicht genau, auf welche Position im Stadion die Kamera zeigt. Außerdem verwenden wir nur Linien, die alle parallel zueinander sind. Aufgrund der daraus resultierenden Kolinearität unserer Eingabedaten kann keine Homographie berechnet werden. Stattdessen lösen wir zwei Teilaufgaben, nämlich Spurerkennung und Fluchtpunkte.
Spurerkennung Der klassische Algorithmus zur Liniensegmenterkennung ist der Hough Line Transforms38, der ein Abstimmungsschema über alle Bildpixel verwendet, um Linien für einen bestimmten Schwellenwert zu bestimmen. Diese Methode ist bei sich ändernden Bildbedingungen fehleranfällig und rechenintensiv. Moderne Ansätze sind immer noch rechenintensiv, aber auf die parallele Ausführung auf GPUs ausgerichtet: Dai et al.39 nutzen zur Lösung der Aufgabe ein Convolutional Neural Network. Xu et al.40 nutzen die Selbstaufmerksamkeitsmechanismen der neueren Transformatorarchitektur, um die Herausforderung der Auswahl der richtigen Schwellenwerte zu bewältigen. Li et al.41 erweitern frühere Methoden, um auch bei Bildern mit großen Linsenverzerrungen zuverlässig zu funktionieren. Liniensegmente können nun semantisch sinnvoll kombiniert werden, um auf die Laufspurmarkierungen zu schließen. Unser Ansatz spiegelt weitgehend die Arbeit von Mammeri et al.42 wider, die eine Methode vorschlagen, die auf der Hough-Transformation und der Verfolgung der Konsistenz über die Zeit basiert.
Fluchtpunkte Schließlich kombinieren wir in unserem Ansatz die erkannten Spuren, um dann auf den Hauptfluchtpunkt zu schließen. Dieser Fluchtpunkt ist in Kombination mit den Spuren die alleinige Grundlage für unseren Kalibrierungsansatz. Wie bei den anderen Schritten oben gibt es einige beliebte Deep-Learning-Ansätze. Wir haben mit dem hochmodernen Ansatz von Zhou et al.43 experimentiert. Anstelle des typischen Hough-Abstimmungsschemas führen sie eine Transformation in einen konischen Raum durch, in dem sie Informationen über Fluchtpunkte direkt aggregieren, während sie den Liniensegmentteil der Methode praktisch überspringen. Obwohl diese Methode bei ihren Ziel-Benchmarks außergewöhnlich gut abschneidet, haben wir einige kleinere Probleme und Abweichungen in unseren Daten festgestellt: Linien, die auf die resultierenden Fluchtpunkte zeigten, stimmten nicht mit den sichtbaren Fahrspurmarkierungen überein. Wir blieben daher bei einem ähnlichen Ansatz wie Mammeri et al.42.
Mehrere plausible Kameraparameter für ein einzelnes Bild. Die farblich abgestufte Kurve zeigt alle möglichen Parameter und die daraus resultierende relative Kameraposition in Übereinstimmung mit dem Fluchtpunkt der Fahrspur. Vier dieser Parametersätze und ihre 2D/3D-Darstellung werden angezeigt (farblich angepasst). Links: 2D-Projektion der Szene mit Fahrspuren (schwarz) und Skelett. Mitte: 3D-Szene mit 3D-Skelett, das im Einklang mit der 2D-Projektion positioniert ist. Rechts: Überlagerung aller projizierten 2D-Skelette für die jeweiligen Geometrien. Korrektes Skelett von 2D HPE in gestricheltem Schwarz. Am besten in Farbe betrachten.
Im Folgenden stellen wir zunächst unsere Argumentationslinie vor und geben dann Details zu der von uns eingesetzten Extraktionsmethode, um die Unzulänglichkeiten aktueller Methoden und Chancen für zukünftige Ansätze aufzuzeigen. Wir stellen eine Methode vor, die aus nur einem einzigen Fluchtpunkt einen dichten Satz möglicher Kamerakonfigurationen extrahiert, die mit den Fahrspuren in einer bestimmten Szene übereinstimmen (vgl. Abb. 2).
Unsere Methode basiert ausschließlich auf der Kenntnis eines einzelnen Fluchtpunkts. Von dort aus bestimmen wir die extrinsischen Kameraparameter für die Rotation \({\textbf{R}} = {\textbf{R}}_x \cdot {\textbf{R}}_y \cdot {\textbf{R}}_z \ in {\mathbb {R}}^{3\times 3}\) (Azimut, Elevation und Roll der Kamera) sowie die Position der Kamera in Bezug auf die Szene \({\textbf{t}}\in {\mathbb{R}}^{3\times 1}\). Wir gehen davon aus, dass es quadratische Pixel und keine Schräge gibt, und definieren den Hauptpunkt unserer virtuellen Kamera genau in der Mitte des Bildes, sodass nur das Sichtfeld als freier intrinsischer Parameter übrig bleibt. Wir bestimmen das Sichtfeld und erstellen die intrinsische Kameramatrix \({\textbf{K}} \in {\mathbb {R}}^{3\times 3}\) und die Gesamtprojektionsmatrix \({\textbf {P}} = {\textbf{K}} \cdot [{\textbf{R}} | {\textbf{t}}] \in {\mathbb {R}}^{3\times 4}\). Um einen 3D-Punkt (X, Y, Z) zurück in Pixelkoordinaten (x, y) zu projizieren, berechnen wir:
Der letzte verbleibende Faktor der Broadcast-Kamera, den dieses Modell nicht berücksichtigt hat, ist die mögliche Objektivverzerrung. Wir zeigen, dass diese Verzerrung für unsere Argumentation im Zusatzmaterial vernachlässigbar ist.
Überblick über unseren Ansatz. In der unteren Reihe (1, 4, 5, 6) wird die aktuell beste Schätzung für die Szenengeometrie in Blau angezeigt. In (2) und (3) veranschaulichen wir die Berechnungs- und Verarbeitungsschritte. Einzelheiten finden Sie im Text.
Abb. 3 veranschaulicht unseren Ansatz als Flussdiagramm. Die untere Zeile zeigt die aktuelle Schätzung der Szenengeometrie nach den jeweiligen Schritten. Jeder der Schritte in der folgenden Auflistung bezieht sich auf die Unterfiguren mit demselben Buchstaben Abb. 3(1)–(6).
Wir beginnen mit einer zufälligen Schätzung der Szenengeometrie. Wie man sieht, stimmen die weißen Fahrspurmarkierungen und die blaue Projektion der geschätzten Szenengeometrie überhaupt nicht überein (vgl. Abb. 3(1)).
Wir extrahieren zunächst geradlinige Segmente aus dem Bild mithilfe einer linearen Hough-Transformation (linke Hälfte, blaue Segmente) und gruppieren diese Liniensegmente in die Hauptspurspuren \({L_j}\) (rechte Hälfte, gelbe Linien). Wir bestimmen den Hauptfluchtpunkt \(v_0\) als Schnittpunkt der Spuren \(L_j\) (angezeigt durch graue Linien Abb. 3(2)).
Als nächstes bestimmen wir eine dichte Menge möglicher Azimut- und Höhenpaare, die mit dem Fluchtpunkt \(v_0\) übereinstimmen. Abb. 3(3) zeigt Höhenisolinien. Jede der Kurven (grau und Farbverlauf) hat eine feste Höhe und Änderungen im Kameraazimut führen zu der angezeigten Bewegung des simulierten Fluchtpunkts. Während die blaue Kamera in Abb. 3(3) von links nach rechts (lila nach gelb) schwenkt, verschiebt sich der Fluchtpunkt von rechts nach links und bewegt sich entlang der angezeigten Linie. Jeder Schnittpunkt (rote Punkte) auf der Linie zwischen der Bildmitte und \(v_0\) (gestrichelte Linie) beschreibt ein mögliches Paar aus Höhe und Azimut. Jedes der Azimut-/Elevationspaare definiert eine Kamera C (vgl. Abb. 3(3)).
Wir berechnen die Rolle der Kamera unter der Annahme, dass die Horizontlinie horizontal ist. Wir haben dadurch die Rotationsmatrix \({\textbf{R}}^C\) bestimmt und die Szenengeometrieschätzung für jede der Kandidatenkameras C aktualisiert. Beachten Sie, dass in Abb. 3(4) die Szenengeometrielinien teilweise zeigen in die richtige Richtung (grüne Mittellinie). Die umgebenden blauen Linien stimmen aufgrund eines falschen Sichtfelds (fov) noch nicht mit dem sichtbaren Bild überein. Der Fov und die intrinsische Matrix \({\textbf{K}}^C\) können anhand des Abstands der roten Schnittpunkte in Abb. 3(3) vom Zielfluchtpunkt \(v_0\) bestimmt werden. Wir passen \({\textbf{K}}^C\) an, um den simulierten Fluchtpunkt auf \(v_0\) zu verschieben (vgl. Abb. 3(4)).
Dies führt zu einer Szenengeometrie, die \(v_0\) entspricht, was bedeutet, dass projizierte parallele Linien mit den Fahrspurmarkierungen auf der Strecke übereinstimmen. Es besteht jedoch immer noch ein gewisser Versatz zwischen der berechneten Szenengeometrie und den ermittelten Fahrspuren. Um die Breite der projizierten Linien zu manipulieren, passen wir den Abstand d der Kamera an und verschieben die Kamera selbst so, dass sie perfekt mit dem Bild übereinstimmt. Mit d, dem Sichtziel der Kamera, und der Drehung \({\textbf{R}}^C\) können wir den genauen Standort unserer simulierten Kamera und damit die Translation \({\textbf{ t}}^C\) (vgl. Abb. 3(5)).
Schließlich berechnen wir die Gesamtprojektionsmatrix \({\textbf{P}}^C = {\textbf{K}}^C \cdot [{\textbf{R}}^C | {\textbf{t}}^ C]\) und gelangen zu der in Abb. 3(6) dargestellten Kandidatenkalibrierung.
Wie in Abb. 1 dargestellt, muss die implizite Geometrie mit der tatsächlichen Szenengeometrie übereinstimmen, damit die geschätzte 3D-Pose genau mit der tatsächlichen 3D-Pose übereinstimmt. Davon kann sich der Leser leicht überzeugen, indem er gedanklich ein 3D-Skelett vor einer Kamera dreht (was einer Bewegung der Kamera um das Objekt entspricht). Jede Änderung des Azimuts, der Höhe oder der Drehung der Kamera verändert die 2D-Projektion des Skeletts. Daher muss sich in der umgekehrten Richtung – dem Anheben eines 2D-Skeletts in eine 3D-Szene – das 3D-Skelett auch bei bewegter Kamera verändern, um immer noch exakt auf dasselbe feste 2D-Skelett projiziert zu werden. Daraus folgt, dass eine perfekte 3D-HPE-Methode implizit die richtige Szenengeometrie verwendet. Wir haben keinen Zugriff auf die implizite Geometrie verschiedener monokularer 3D-HPE-Methoden. Wir können jedoch einzelne Geometrien testen, indem wir die geschätzte Pose (vgl. Abb. 1d) mithilfe der tatsächlichen Geometrie (e) in das Bild projizieren und sie mit dem ursprünglichen 2D-Skelett (c) vergleichen. Wenn diese Projektion nicht mit dem 2D-Skelett übereinstimmt, deutet die monokulare 3D-HPE-Methode auf eine falsche Szenengeometrie hin. Unsere Experimente (vgl. Abschnitt „Experimente“) werden diesen Aspekt genauer untersuchen. Als Hilfsmethode führen wir außerdem ein Schema ein, um die tatsächliche Geometrie anhand der Spurbegrenzungen der Zielgeraden in einem Leichtathletikstadion abzuleiten.
Die Fahrspurmarkierungen zeigen auf den Fluchtpunkt \(v_0\), der irgendwo außerhalb der oberen linken Ecke des Bildes liegt, und schneiden sich dort (vgl. Abb. 3(2)). Unsere Methode findet alle Sätze von Kameraparametern, die zu Fluchtpunkten (\(v_0\), \(v_1^k\)) führen, sodass \(v_0\) immer mit den Spuren übereinstimmt und \(v_1^k\) die ist zweiter Fluchtpunkt, der durch Linien orthogonal zu den Fahrspurmarkierungen in 3D definiert ist (\(v_1^k\) befindet sich irgendwo oben rechts im Bild). Abb. 2 (links) zeigt 4 verschiedene Beispielgeometrien für dasselbe \(v_0\) und verschiedene \(v_1^k\).
In Abb. 2 ist der Effekt auf die 2D-Projektion für verschiedene 3D-Geometrien dargestellt. Es zeigt den Unterschied zwischen demselben 3D-Skelett, das mit verschiedenen Kamerastandorten gerendert wurde, die alle mit den sichtbaren Spuren übereinstimmen. Dazu konstruieren wir eine minimale 3D-Szene (vgl. Abb. 2, links, schwarze Gitterlinien) mit typischen Leichtathletikabmessungen. Indem wir eine Lochkamera und den Renderprozess simulieren, können wir den möglichen Satz von Kameraparametern auf eine Linie im 3D-Raum beschränken (vgl. Abb. 2, farblich abgestufte gekrümmte Linie). Jede dieser Kamerakonfigurationen verfügt über eine eindeutige Kameraposition, die entlang des angezeigten Pfads liegt. Das Rendern des schwarzen Gitters aus der 3D-Szene (Mitte) in eine simulierte Kamera und die Überlagerung mit dem Original-TV-Bild führt zu den 4 verschiedenen Projektionen auf der linken Seite (richtige Parameter = orangefarbener Rahmen). Für jede der 4 simulierten Kameras zeigen wir die geschätzten absoluten 3D-Positionen des Athleten an (Mitte). Mithilfe einer handelsüblichen monokularen 3D-HPE-Methode platzieren wir den Sportler in der Szene und projizieren die vorhergesagten 3D-Skelette zurück in 2D. Die gleiche 3D-Pose führt zu den 4 verschiedenen 2D-Projektionen (rechts), abhängig von der implizierten Geometrie der Szene. Das ursprüngliche 2D-HPE ist schwarz/gestrichelt dargestellt. Beachten Sie, dass sich auch die Neuprojektion der korrekten Geometrie (orange) vom korrekten 2D-Skelett unterscheidet.
Unsere vorgeschlagene Methode ermöglicht das Extrahieren der Szenengeometrie und der Kameraparameter aus einem Bild mit typischen Leichtathletik-Fahrspurmarkierungen. Für unseren Ansatz gehen wir von folgenden Annahmen aus: Lochkamera; kein Digitalzoom; fester Kamerastandort (dh keine Spider-Cam); die beiden Hauptfluchtpunkte liegen horizontal; Die 2D-Einschätzung der menschlichen Pose funktioniert einwandfrei. Diese Annahmen werden im Zusatzmaterial empirisch validiert.
Unsere Methode liegt irgendwo zwischen einem analytischen und einem konstruktiven Rastersuchansatz. Wir diskutieren im Abschnitt „Diskussion“, warum dies in diesem Anwendungsfall einer Gradienten-basierten Methode vorzuziehen war. Im Folgenden beschreiben wir zunächst die Auswirkungen der Änderung verschiedener Parameter in der Simulationspipeline auf \(v_0\) und arbeiten dann von diesen Änderungen rückwärts, um schrittweise dichte Parametersätze zu erstellen, die alle das aktuelle Bild erklären. Dazu machen wir im Folgenden zunächst einige allgemeine Beobachtungen zum Rendering-Prozess. Die Parameter unserer Rendering-Pipeline sind: Kameraposition (x, y, z), Kameraausrichtung (Azimut, Höhe, Rolle), Sichtfeld fov und Brennweite F.
Aufgrund der starken Markierungen auf dem Boden in Leichtathletikstadien können wir mithilfe einfacher Computer-Vision-Methoden, nämlich einer Hough-Transformation, leicht einen Fluchtpunkt \(v_0\) aus dem Bild bestimmen. Um \(v_0\) anzupassen, kehren wir den Renderprozess um, indem wir jeden freien Parameter der Kamera untersuchen und seine Auswirkung auf die Verschiebung von \(v_0\) melden.
Als Hauptfluchtpunkt der Szene definieren wir den Punkt, an dem sich die Laufspuren kreuzen (vgl. Abb. 3 (2, 3)). Um diesen Punkt zu finden, extrahieren wir Liniensegmente aus dem Bild mithilfe einer Hough-Linientransformation (Standardimplementierung von OpenCV, https://opencv.org/). Wir gruppieren die resultierenden Liniensegmente und filtern sie auf nur Segmente herunter, die ungefähr in die gleiche Richtung zeigen. Darüber hinaus kombinieren wir Liniensegmente anhand ihrer genauen Bildwinkel, um eine Näherung für die Laufspuren zu erhalten. Die Kombination der paarweisen Schnittpunkte dieser Spuren und die Durchführung einer Mehrheitsabstimmung führt zum Frame-Fluchtpunkt \(v_0\). Im Zusatzmaterial untersuchen wir die Auswirkungen, die die Linsenverzerrung auf unsere Methode haben könnte.
Kameraposition (\({\textbf{t}}\)). Die grundlegende Optik sagt uns, dass das Bewegen der Kamera ohne Änderung ihrer Richtung zum gleichen Fluchtpunkt führt.
Kameraausrichtung (\({\textbf{R}}\)). In Abb. 3(3) zeigen wir, wie sich der Fluchtpunkt bewegt, wenn die Kamera geschwenkt (Azimut) und geneigt (Elevation) wird: Abb. 3(3) Der grüne Punkt sei der Fluchtpunkt der Fahrspurmarkierungen. Unter Beibehaltung aller anderen Kameraparameter verschiebt sich der Fluchtpunkt nach rechts und krümmt sich nach oben, wenn wir die Kamera (blauer Punkt) nach links schwenken. Die dicke abgestufte Linie zeigt den Verlauf des Fluchtpunkts, wenn sich der Azimut der Kamera von 89\(^{\circ }\) (am dunkelsten) auf 1\(^{\circ }\) (am hellsten) ändert. Graue Kurven zeigen den Verlauf der Azimutänderung für unterschiedliche Höhenwerte.
Sichtfeld und Brennweite (\({\textbf{K}}\)). Sowohl das Sichtfeld als auch die Brennweite verändern die Abmessungen der Bildebene relativ zur Szene. Unter Beibehaltung der Kameraposition und -ausrichtung bedeutet eine Änderung dieser Parameter somit einen größeren oder kleineren Ausschnitt einer unendlich großen Bildebenenoberfläche. Daher bewegen sich die Fluchtpunkte in einer geraden Linie weg und in Richtung der Bildmitte (Hauptpunkt), wenn entweder Fov oder F variiert werden. Ohne Beschränkung der Allgemeinheit halten wir F in Zukunft fest und berücksichtigen nur Änderungen im Fov. Die gestrichelte schwarze Linie in Abb. 3(3) zeigt die Verschiebung des Fluchtpunkts beim FOV-Wechsel an. Jeder Schnittpunkt der gestrichelten schwarzen Linie mit einer Höhenisolinie definiert ein Azimut-/Höhenpaar, das den aktuellen Fluchtpunkt erklären kann.
Für die folgenden Experimente wählen wir manuell die richtige Geometrie aus dem resultierenden Satz möglicher Optionen aus und nutzen dabei alle oben genannten zusätzlichen visuellen Hinweise.
In diesem Abschnitt verwenden wir unsere Methode zur Bestimmung der Szenengeometrie (vgl. Abschnitt „Methode“), um zu zeigen, dass aktuelle monokulare 3D-Methoden zur menschlichen Posenschätzung die zugrunde liegende Szenengeometrie nicht genau berücksichtigen, was zu … erhebliche Abweichungen zwischen den geschätzten 3D-Posen und den tatsächlichen 3D-Posen. Wir demonstrieren diese Diskrepanz, indem wir die implizite Szenengeometrie gegen die annähernd korrekte Geometrie austauschen (mit unserer Methode) und die daraus resultierenden Unterschiede im projizierten Bild aufzeichnen (vgl. Abb. 1).
In diesem Experiment ermitteln wir ein festes 2D-Skelett für jeden der bewerteten Rahmen/Athleten. Diese 2D-HPE-Methode basiert auf einem ResNet-50-Backbone, trainiert auf MPII12,21. Wir heben jede 2D-Pose mit verschiedenen monokularen 3D-HPE-Methoden in 3D um (siehe unten). Wir platzieren die resultierenden 3D-Skelette in einer simulierten Szene und projizieren diese Szene unter Verwendung der tatsächlichen Szenengeometrie, die mit unserer Methode ermittelt wurde, zurück in das 2D-Bild. Wir können diese Neuprojektion nun mit dem ursprünglichen 2D-Skelett vergleichen.
In Bezug auf Abb. 1: Wir nehmen ein 2D-Skelett (c) und heben es in ein 3D-Skelett (d). Dieser monokulare 3D-HPE-Prozess implizierte eine unbekannte Geometrie (f). Wir verwenden unsere Methode, um die tatsächliche Geometrie der Szene (e) zu bestimmen und das 3D-Skelett (d) unter Verwendung dieser korrekten Geometrie zurück in das 2D-Bild (c) zu projizieren. Wir zeigen, dass die resultierende Neuprojektion vom ursprünglichen 2D-Skelett abweicht, was wiederum bedeuten muss, dass die implizite Geometrie (f) von der tatsächlichen Geometrie (e) abweicht und dass die geschätzte 3D-Pose (d) von der tatsächlichen 3D-Pose (a) abweicht ).
Wir quantifizieren den Reprojektionsfehler und schätzen den zugrunde liegenden 3D-Fehler, der den Reprojektionsfehler verursacht hat. Darüber hinaus liefern wir Beweise aus einem kleinen realen Experiment, dass unsere Methode der korrekten Szenengeometrie sehr nahe kommt und dass unsere Annäherung an implizite 3D-Kniewinkelfehler angemessen ist.
Wir stellen im ergänzenden Material auch zusätzliche kontradiktorische Experimente zur Verfügung, die zeigen, dass die folgenden Ergebnisse nicht nur Artefakte des begrenzten Lochkameramodells sind. Abschließend kopieren wir auch den typischen Szenenaufbau an unserer lokalen Strecke und vergleichen unsere Methode mit laserverifizierten Groundtruth-Messungen im Abschnitt „Ground-Truth-Bewertung“.
Wir kommentieren Einzelbilder von fünf Videosequenzen von verschiedenen Austragungsorten, Athleten und Entfernungen von großen übertragenen Sportereignissen (z. B. Olympische Spiele, Diamond League, ...). Dabei gehen wir alle Bilder manuell durch, um sicherzustellen, dass unsere berechneten Ergebnisse mit allen sichtbaren Hinweisen in der Szene übereinstimmen. Anhand von Fahrspurmarkierungen generiert unser Algorithmus automatisch einen umfassenden Satz möglicher Kameraparameter. Anschließend können wir die richtigen Kameraparameter für jedes einzelne Bild mithilfe eines Annotationstools bestimmen, mit dem der Annotator durch die verschiedenen plausiblen Kameraparameter gleiten kann, bis sie perfekt mit allen zusätzlichen visuellen Hinweisen übereinstimmen. Anhand der resultierenden Szenengeometrie jedes Frames können wir per Raytracing den genauen 3D-Standort des Athleten verfolgen, wann immer er den Boden berührt. Wir bestimmen die Frames, die die Aufsetzphase des Schrittes des Athleten darstellen, indem wir die Fußprogression der 2D-Schätzung der menschlichen Pose analysieren. Wir skalieren das 3D-Skelett und skalieren und verschieben zusätzlich die 2D-Projektion, um den Abstand zur ursprünglichen 2D-Pose zu minimieren. Wir verwenden nur Sportler, die vollständig sichtbar sind, um Fehler durch Verdeckungen durch andere Sportler zu vermeiden. Durch diesen Vorgang entstehen insgesamt 355 Frames, die wir im Folgenden auswerten.
Wir vergleichen drei hochmoderne Methoden für monokulare 3D-HPE: Strided Transformers18, RIE17 und MeTRAbs21. Während die beiden erstgenannten Methoden ausschließlich auf Human3.6m16 trainiert werden, wird MeTRAbs zusätzlich auf externen Daten trainiert und speziell für 3D-HPE in freier Wildbahn entwickelt. Für alle diese Algorithmen führen wir 3D-HPE aus, ermitteln dann die absolute Position des Fußes eines Sportlers in der Szene und platzieren das 3D-Skelett an dieser Stelle. Die vorhergesagte Ausrichtung und Skalierung der 3D-Skelette hängen von den 2D/3D-Entsprechungen in den Trainingsdaten ab. Da die 3D-Skelette nicht unbedingt mit der tatsächlichen Geometrie der Szene und der Ausrichtung der Kamera übereinstimmen, passen wir den Maßstab an die Höhe der Projektion an. Wir richten auch die Ausrichtung des vorhergesagten 3D-Skeletts an den Achsen der konstruierten Szene aus (vgl. Abb. 2).
Eine vorläufige Analyse ergab, dass MeTRAbs den beiden anderen Methoden überlegen ist. Darüber hinaus vergleichen wir MeTRAbs mit leicht verbesserten Versionen von MeTRAbs. Wir fügen Informationen in den Basisalgorithmus ein, die ihm normalerweise nicht zur Verfügung stehen. Der Zweck dieser Modifikationen besteht darin, zu zeigen, dass es immer noch einen Versatz zwischen der Projektion des 3D-Skeletts und der tatsächlichen 2D-HPE im Originalbild gibt, selbst wenn wir die Methode durch die Nutzung zusätzlicher Domänen- und Szenenkenntnisse verbessern.
MeTRAbs + Bewegungswissen. Wir untersuchen ausschließlich Laufaufnahmen, in denen die Athleten die Zielgerade hinunterlaufen. Wir wissen daher, dass die 3D-Skelette in der Szene immer in die gleiche Richtung zeigen und sich in einer geraden Linie bewegen sollten. Die Schwenkbewegung der Kamera, die dem Sportler folgt, wirkt sich auf die relative Ausrichtung des Sportlers zur Kamera aus. Dies führt häufig dazu, dass der 3D-Hebeabschnitt des monokularen 3D-HPE eine gekrümmte Flugbahn beschreibt. Das Geradeausrichten des Weges des Sportlers führt zu einer ersten Verbesserung, indem Domänenwissen über die Szene genutzt wird.
MeTRAbs + Rotationswissen. Zweitens vergleichen wir den Basisalgorithmus mit einer Verbesserungsstrategie, bei der wir das 3D-Skelett idealerweise unter Verwendung der relativen Ausrichtung der Kamera zum Skelett drehen. Wir verwenden das gleiche Prinzip wie zuvor: Die Athleten sollten immer in die gleiche Richtung blicken. Nur dieses Mal platzieren und drehen wir den Athleten direkt so, dass er auf die Ziellinie blickt. Wir können diese Drehung des Skeletts durchführen, weil wir mit unserer beschriebenen Methode wissen, wo sich die Kamera relativ zum Sportler befindet, und daher erneut Domänenwissen einbringen.
Beide Verbesserungen nutzen Informationen, die dem Basisalgorithmus nicht zur Verfügung stehen.
Idealerweise sollte für einen perfekten 3D-HPE-Algorithmus die Platzierung des 3D-Skeletts in der korrekt abgeleiteten globalen Geometrie der Szene und die anschließende Projektion in das Bild mithilfe der abgeleiteten Kameraparameter zu einer perfekten Überlappung des 2D-Skeletts und des neu projizierten 3D-Skeletts führen. Realistisch gesehen wird es immer eine gewisse Fehlerquote geben. Im Folgenden messen wir diesen Fehler für bestehende, hochmoderne 3D-HPE-Methoden. Wir untersuchen den erwarteten Fehler weiter anhand einer Stichprobengröße von 16 Athleten und Videos aus verschiedenen Kamerawinkeln und Pan-Zoom-Aufnahmen, was zu 355 Datenpunkten führt.
Für die untersuchten Videos liegen uns keine Ground-Truth-3D-HPE-Daten vor, sodass wir die typische Analyse des 3D-MPJPE (Mean Per Joint Position Error) nicht durchführen können. Stattdessen wird der oben beschriebene Reprojektionsfehler im 2D-Bildraum ausgedrückt. Zusätzlich simulieren wir für jeden der untersuchten Sportler eine Bewegung seines Knies im 3D-Raum und zeichnen die daraus resultierenden Veränderungen im projizierten Bild auf. Nachfolgend finden Sie eine detaillierte Beschreibung unserer Bewertungsmetriken. Die Ergebnisse sind in Tabelle 1 zu finden. Wir berücksichtigen 17 Hauptgelenkstellen, die in HPE-Benchmarks häufig verwendet werden: Kopf, Hals, Brust, Nabel, Becken, 2\(\times \) Schulter, 2\(\times \)Ellenbogen, 2\(\times \)Handgelenk, 2\(\times \)Hüfte, 2\(\times \)Knie und 2\(\times \)Knöchel.
Fehler bei der Neuprojektion. Mithilfe der aufgedeckten 3D-Geometrie der Szene projizieren wir das 3D-Skelett in das Bild und berechnen den durchschnittlichen Versatz pro Gelenk zum entsprechenden 2D-Skelett in Pixel. Hierzu verwenden wir die 17 standardmäßigen menschlichen 3,6-m-Gelenkdefinitionen16. Da außerdem die genaue Szenengeometrie bekannt ist (die Laufspuren sind \(1,22\pm 0,01\) m breit), skalieren wir diesen Wert anhand der realen Größe im Verhältnis zur Pixelhöhe des Athleten. Dabei handelt es sich nicht um den korrekten Fugenabstand in mm, sondern nur um eine Näherung unter Berücksichtigung des Abbildungsmaßstabs. Für eine echte Entfernungsmessung würden wir 3D-Skelettinformationen der Grundwahrheit benötigen. Wir schließen dieses Maß ein, da es die Entfernung des Sportlers zur Kamera und den Zoom der Kamera genauer berücksichtigt.
2D-Kniefehler. Bei kinematischen Untersuchungen interessiert uns nicht besonders die absolute Position der einzelnen Gelenke, sondern vielmehr deren Beziehung zueinander. Wie im Abschnitt „Ähnliche Arbeiten“ motiviert, wollen wir die Kniewinkel des Sportlers untersuchen. Da wir in unseren Testdaten weder die korrekten 3D-Skelette noch die detaillierte Laufkinematik kennen, messen wir den Kniewinkelfehler für die 2D-Posen.
Ca. 3D-Kniefehler. Wenn wir eine orthogonale Ansicht des Knies des Athleten hätten, würde der sichtbare 2D-Kniewinkel (und sein Fehler) ungefähr dem 3D-Kniewinkel entsprechen. Für immer steilere Winkel der Kamera zur Sagittalebene des Sportlers bricht diese Korrespondenz jedoch. Bei größeren Azimutwerten der Kamera führen 2D-Kniefehler zu schwerwiegenderen tatsächlichen Kniefehlern. Wir nähern uns dem 3D-Kniefehler an, indem wir die Bewegung im Knie des vorhergesagten 3D-Skeletts simulieren und ihre Auswirkung auf den 2D-Kniewinkelfehler aufzeichnen. Der gemessene 2D-Kniefehler wird dann für jeden der ausgewerteten Frames entsprechend skaliert.
Der bestgenäherte 3D-Kniefehler in unserem Vergleich beträgt 8,45\(^{\circ }\) mit einer Standardabweichung von 13,19\(^{\circ }\) (vgl. Tabelle 1). Diese Fehlerspanne ist größer als die Änderungsniveaus für signifikante Unterschiede in der Laufkinematik und der impliziten Laufökonomie, wie sie in der Literatur5,7,9,31 (vgl. Abschnitt „Verwandte Arbeiten“) detailliert beschrieben werden, was den aktuellen Stand der Technik wiedergibt -Art-Methoden, die für die Datenerhebung für kinematische Untersuchungen unbrauchbar sind.
Wir führen eine kleine Validierungsstudie mit einem Xsens-Motion-Capture-Anzug durch (MVN Link, Xsens Technologies BV, Enschede, Niederlande, https://www.xsens.com/products/mvn-analyze). Dieses IMU-basierte Bewegungserfassungssystem wurde unabhängig mit Winkelfehlern von \(< 2,6 \pm 1,5^{\circ }\)44 validiert. Wir haben auf den Tribünen in der Nähe der Ziellinie mehrere Kamerastandorte eingerichtet, um typische Fernsehbilder abzugleichen und die Positionen der Kameras mithilfe eines Laserentfernungsmessers und optischer Methoden zu triangulieren. Das in den Abb. verwendete Bild. Die Abbildungen 1, 2 und 3 zeigen ein Standbild aus unseren eigenen Videoaufnahmen, das repräsentativ für die Positionierung und Einstellungen des ausgestrahlten Videos ist. In unserem Experiment läuft ein Athlet auf der Zielgeraden der Strecke und wir zeichnen gleichzeitig 3D-Bewegungserfassung und Videomaterial auf und führen dabei die TV-typischen Kameraoperationen aus: Schwenken, Neigen und Zoomen (bis zu 30-fach). Wir verwenden die im Abschnitt „Methode“ beschriebene Methode, um mögliche Kameraparameter zu extrahieren. Für 50 Bilder wählen wir manuell die Kameraparameter aus, die das projizierte 3D-Skelett am besten mit dem Bild des Athleten in Einklang bringen. In Bezug auf Abb. 1 haben wir die tatsächliche 3D-Pose in Abb. 1a, die kommentierte Szenengeometrie in Abb. 1e und das Skelett in Abb. 1c gefilmt. Wir vergleichen diese nun mit der geschätzten Pose Abb. 1d.
Zunächst bewerten wir, wie gut unsere Methode die tatsächliche Geometrie und Position der Kamera in der Szene vorhersagt. Unser Modell basiert auf einer Lochkamera, während wir in Wirklichkeit mit einer herkömmlichen Kamera mit mehreren Objektiven gefilmt haben. Wir können daher nicht erwarten, dass unsere Methode die genaue Position der realen Kamera findet, sondern nur einer virtuellen Kamera. Wir stellen fest, dass der vorhergesagte Kamerastandort innerhalb von 5,5 % der korrekten Kameraposition liegt (bezogen auf den Abstand der Kamera zum Athleten). Der durchschnittliche Versatz der vorhergesagten Kamera zur tatsächlichen Kamera in x/y/z-Richtung beträgt 1,75 m/2,67 m/0,72 m (min.: 0,09 m/0,18 m/0,01 m, max: 4,48 m/9,50 m/2,05 m). . Der Athlet hat einen durchschnittlichen Abstand von 37,56 m zur Kamera (min: 14,57 m, max: 71,41 m).
Als nächstes vergleichen wir den 2D-HPE für diese 50 Bilder mit der Projektion des aufgezeichneten 3D-Xsens-Skeletts unter Verwendung der richtigen Szenengeometrie, was zu einem RMSE von \(7,56 \pm 3,75\) Pixel führt, was \(50,42 \pm 28,51\) entspricht. mm.
Abschließend bewerten wir den 3D-Winkelfehler im Knie und Ellenbogen zwischen den erfassten und geschätzten Skeletten (vgl. Abb. 1a,d). Das linke/rechte Knie hat einen durchschnittlichen Fehler von: \(8,39 \pm 4,41^{\circ }\) / \(7,94\pm 5,84^{\circ }\), was mit unserem ungefähren 3D-Fehler in der Tabelle übereinstimmt 1. Der linke/rechte Ellbogen hat einen durchschnittlichen Fehler von: \(15,81\pm 7,80^\circ \) / \(11,85 \pm 5,65^\circ \), was einen insgesamt erwarteten Fehler in der 3D-Winkelvorhersage von \(11,00) ergibt \pm 5,93^\circ \).
In dieser Untersuchung demonstrieren wir eine Technik zur Ermittlung der extrinsischen Kameraparameter für eine zusammenhängende Videosequenz in einem Leichtathletikstadion. Wir verwenden nur Computer-Vision-Methoden auf niedriger Ebene (Hough-Transformation) und nutzen die umfangreichen Markierungen auf dem Boden, um mögliche Kameraparameter zu generieren. Die Kombination dieser Werte für alle Frames unter bestimmten Konsistenzbeschränkungen ermöglicht die Rekonstruktion des gesamten 3D-Szenenverlaufs im Video. In unserer experimentellen Umgebung verwendeten wir die entdeckten Kameraparameter, um 3D-Vorhersagen zur Schätzung der menschlichen Pose mit den richtigen Kameraparametern zurück in das Bild zu projizieren und sie mit ihren vorhergesagten 2D-HPE-Gegenstücken zu vergleichen. Die resultierenden erwarteten Fehlermargen im Kniewinkel für eine kleine Stichprobe von Leichtathletikaufzeichnungen sind größer als die reale Varianz, die bei der Laufkinematik zu erwarten ist. Die Fehler gehen über das Ausmaß signifikanter Unterschiede zwischen Läufern hinaus, was das Sammeln von Daten zur Untersuchung der Laufkinematik allein mit monokularem Videomaterial und den aktuellen, hochmodernen Methoden der 3D-Posenschätzung von Menschen in freier Wildbahn unmöglich macht. Wir plädieren dafür, die leicht verfügbaren Informationen zur 3D-Geometrie in zukünftige Iterationen monokularer 3D-HPE-Systeme einzubinden.
Es ist wichtig zu beachten, dass unser Ansatz nicht über die Wände und Bahnen eines Leichtathletikstadions hinausgeht und nicht verallgemeinerbar ist. Das Ziel bestand hier nicht darin, die umfassende Aufgabe der groben Schätzung menschlicher Posen in allen möglichen Situationen zu lösen, sondern vielmehr darin, die Kinematik menschlicher Posen in einem sehr engen Bereich genau zu approximieren, um Daten für nachgelagerte Untersuchungen zu erstellen. Die Nutzung der riesigen Datenmengen frei verfügbarer Videodokumentationen von Weltklasse-Rennsportveranstaltungen sowie historischer Daten und langfristiger Veränderungsverläufe könnte die Möglichkeit eröffnen, die menschliche Fortbewegung zu untersuchen oder zumindest eine genauere Modellierung zu ermöglichen. Wir möchten, dass die Leser das ungenutzte Potenzial von Computer Vision als Forschungsinstrument in der Sportwissenschaft berücksichtigen.
In unseren Experimenten im Abschnitt „Experimente“ verbessern wir die Neuprojektion einer vorhandenen Methode, indem wir domänenspezifisches Wissen in ihr Ergebnis einbringen. Wir modifizieren das monokulare 3D-HPE mithilfe der abgeleiteten Kameraparameter. Der Beweis, dass es bei dieser idealen Nutzung der 3D-Informationen immer noch erhebliche Fehler gibt, bedeutet, dass das monokulare 3D-HPE nicht einfach in Translation, Skalierung und Rotation vom korrekten 3D-Skelett abweicht, sondern dass es nicht mit der Gesamthaltung übereinstimmt. Eine leichtathletikspezifische monokulare 3D-HPE-Methode sollte daher diese 3D-Szeneninformationen einbeziehen, anstatt sie nur zur Korrektur ihrer Ausgabe zu verwenden.
Eine einfache, naive Umsetzung dieser Idee könnte als Erweiterung der 2,5D-HPE-Methoden angesehen werden: Führen Sie eine 2D-HPE durch, finden Sie vollständige Kameraparameter und verfolgen Sie jeden der 2D-Punkte per Raytrace in der Szene. Bei 2,5D-Methoden wird für das Bild eine Tiefenkarte erstellt, die die Entfernung jedes Objekts und jeder Person zur Kamera beschreibt. Mit unserer Methode können wir die 3D-Geometrie der Fahrspuren wiederherstellen, jedoch nicht die der Objekte oder Personen im Bild. Da wir die Gesamtgeometrie der Szene und nicht den Abstand der Personen zur Kamera wiederherstellen können, könnte dieser naive Ansatz als 2,75D-Methode betrachtet werden, wenn auch im Umfang auf die Leichtathletik-Einstellung beschränkt.
Oberflächlich betrachtet sieht die Aufgabe, mithilfe des Fluchtpunkts und einiger Linien im Bild die richtigen Kameraparameter zu bestimmen, wie ein Paradebeispiel für eine auf Deep Learning basierende Gradientenlösung aus. Zusätzlich zu der beschriebenen Methode (vgl. Abschnitt „Methode“) haben wir erfolgreich damit experimentiert, einige extrinsische Kameraparameter mithilfe differenzierbaren Renderings aufzudecken. Die im Abschnitt „Methode“ beschriebene Simulationspipeline kann vollständig in TensorFlow (oder einer beliebigen automatischen Differenzierungs-Engine) implementiert und dann optimiert werden, um Fluchtpunkte und bestimmte Orientierungspunkte im Bild abzugleichen, genau wie unser Ansatz. Der Nachteil einer solchen Methode besteht darin, dass sie immer eine Lösung findet, aber nicht alle Lösungen. In unserem Ansatz untersuchen wir eine dichte, aber diskrete Anzahl möglicher Parameterpaare. Wir durchlaufen den Parameterraum mit einer Abtastrate von \(0,5^{\circ }\) Azimut. Anschließend können benachbarte Parametersätze interpoliert werden, um eine kontinuierliche Darstellung für alle möglichen Kameraparameter zu erhalten. Damit haben wir eine Schnittstelle erstellt, die es Fachexperten ermöglicht, einen Schieberegler zu bewegen, um die Kamerahöhe oder -position für den zweiten Fluchtpunkt anzupassen und gleichzeitig die Kameraparameter immer anzupassen, um eine Projektion der 3D-Szene anzuzeigen, die mit dem aktuellen Bild übereinstimmt.
Eine klare Einschränkung unserer Methode ist das Projektionsmodell mit einer Lochkamera. In Wirklichkeit verfügen Kameras über mehrere Linsen, die das Bild verzerren und gerade Linien verbiegen, was sich auf die Grundlage unserer Methode, die Hough-Transformation, auswirkt. Darüber hinaus geht das Lochkameramodell davon aus, dass wir gerade Linien von der Szene durch die Bildebene in die Mitte der Kamera zeichnen können, während das Objektiv tatsächlich den Kamerastrahl bricht und die effektive Kameramitte näher an den Brennpunkt und die Szene rückt . Unser Validierungsexperiment im Abschnitt „Experimente“ zeigt, dass wir zwar die richtige Szenengeometrie finden können, aber die winzigeren Details von Linsenverzerrungen ignorieren und daher unser vorhergesagter 3D-Standort um durchschnittlich 5,5 % von der Kamera versetzt ist. Im interessierenden Bereich gehen wir davon aus, dass der Verzerrungseffekt für das von uns untersuchte Filmmaterial nicht zu groß ist, da die von uns analysierten Aufnahmen Telezoomkameras verwenden.
Wir stellen im Zusatzmaterial zusätzliche Experimente zur Verfügung, um diesen Punkt weiter zu veranschaulichen. In den Experimenten optimieren wir kontrovers sowohl die Objektivverzerrung als auch die genaue Kameraposition (innerhalb des geschätzten 5,5 %-Radius), um die Ergebnisse aus Tabelle 1 zu verbessern. Wir führen 200 separate Optimierungen durch, bei denen die berechneten Parameter unserer Methode angepasst werden, um die Rückprojektion zu minimieren Fehler. Die kontradiktorischen Experimente führen zu Verbesserungen des Reprojektionsfehlers um 0,36 ± 0,48 Pixel (Objektivverzerrung) bzw. 0,66 ± 0,48 Pixel (Kamerastandort). Die Einschränkungen unseres Kameramodells sind daher nicht schwerwiegend genug, um den beobachteten Effekt beim Rückprojektionsfehler zu erklären.
Trotz dieser Einschränkung bleibt die Aussage dieses Papiers bestehen. Für einen bestimmten Fluchtpunkt können wir einen Satz Kameraparameter finden, der das Rendern aller Szenen für verschiedene zweite Fluchtpunkte ermöglicht. Indem wir aus diesen Optionen manuell die richtige Perspektive auswählen, zeigen wir, dass aktuelle monokulare 3D-HPE-Methoden nicht mit der Szenengeometrie konsistent sind. Die Projektion der geschätzten 3D-Posen in das 2D-Bild unter Verwendung der richtigen Geometrie führt zu großen Fehlern. Daher unterscheidet sich die Geometrie, die implizit vom monokularen 3D-HPE verwendet wurde, von der tatsächlichen Geometrie.
Diese Studie soll als Ausgangspunkt für die Verwendung von Computer-Vision-Methoden dienen, um Daten aus frei verfügbaren Videos zu extrahieren, die in zukünftigen Untersuchungen zur Laufkinematik verwendet werden können. Unsere Methode könnte bereits verwendet werden, um Daten so zu kommentieren, wie sie sind. Die zweidimensionale Schätzung der menschlichen Pose ist von Natur aus leicht zu kommentieren. Alle notwendigen Informationen zur idealen Lösung dieser Aufgabe sind im Bild enthalten und die Beantwortung der Frage: „Welches Pixel im sichtbaren Bild liegt dem Ellenbogengelenk am nächsten?“ kann mithilfe einiger Urteile von Annotatoren genau gelöst werden. Um die gleiche Aufgabe für 3D auszuführen, sind zusätzliche Informationen über die 2D-Pixelposition hinaus erforderlich. Wir haben unsere Methode so konzipiert, dass wir ein Anmerkungstool erstellen konnten, mit dem sich die richtige Szenengeometrie mit einem einzigen Schieberegler schnell anpassen lässt. Derselbe Vorgang kann für eine große Anzahl von Videos wiederholt werden. Mit dem im Abschnitt „Diskussion“ erwähnten naiven Ansatz könnten wir einen großen kinematischen Datensatz generieren. Natürlich möchten wir es noch besser machen und den manuellen Anmerkungsaufwand noch weiter reduzieren. Um jedoch Daten in einer sportwissenschaftlichen Untersuchung verwenden zu können, muss ein Forscher immer manuell in der Lage sein, einige Datenproben zu bestätigen und anzupassen, um den Aufzeichnungsfehler zu approximieren.
Ein offensichtliches Manko unserer Methode besteht darin, dass sie derzeit nur auf den geraden Abschnitten im Leichtathletikstadion funktioniert. Eine natürliche Erweiterung wäre die Berücksichtigung aller Kamerastandorte und Blickwinkel im Stadion, da es in den Kurven ebenso viele Bodenmarkierungen gibt, wie auch bei anderen Sportereignissen (vgl. Abschnitt „Verwandte Arbeiten“). Eine solche Erweiterung sollte unter Verwendung höherstufiger Sehmethoden und höchstwahrscheinlich eines Deep-Learning-Ansatzes entwickelt werden, der der aktuellen Forschungslinie zu neuronalen Strahlungsfeldern ähnelt45. Wie in diesem Artikel erwähnt, plädieren wir für die Entwicklung monokularer 3D-HPE-Methoden, die das domänenspezifische Wissen einbeziehen, das wir mit unserer Methode extrahieren. Es ist unwahrscheinlich, dass dies zu einer verallgemeinerbaren Lösung führt, aber wir können die domänenspezifische 3D-Posenschätzung des Menschen weiter verbessern, um Untersuchungen zur groß angelegten Laufkinematikanalyse zu unterstützen.
Unsere Methode basiert auf öffentlich verfügbaren Videodaten von professionellen Mittelstreckenlaufveranstaltungen und analysiert diese. Eine vollständige Liste des verwendeten Videomaterials sowie Groundtruth-Daten für die Validierungsstudie im Abschnitt „Ground-Truth-Bewertung“ sind auf begründete Anfrage beim entsprechenden Autor erhältlich.
Badiola-Bengoa, A. & Mendez-Zorrilla, A. Eine systematische Überprüfung der Anwendung der kamerabasierten menschlichen Posenschätzung im Bereich Sport und körperliche Betätigung. Sensoren 21, 5996. https://doi.org/10.3390/s21185996 (2021).
Artikel ADS PubMed PubMed Central Google Scholar
Lei, F., An, Z. & Wang, X. Posenschätzung komplexer menschlicher Bewegungen. In Ma, M., Song, G. & Wang, H. (Hrsg.) Proceedings of the 3rd International Conference on Video and Image Processing (ICVIP), 153–156, https://doi.org/10.1145/3376067.3376084 ( 2019).
Wang, J., Qiu, K., Peng, H., Fu, J. & Zhu, J. KI-Trainer: Tiefgehende menschliche Posenschätzung und -analyse für personalisierte Unterstützung beim Sporttraining. In Amsaleg, L., Huet, B. & Larson, M. (Hrsg.) Proceedings of the 27th ACM International Conference on Multimedia (MM '19), 374–382, https://doi.org/10.1145/3343031.3350910 ( 2019).
Wu, E. & Koike, H. Futurepose – Mixed-Reality-Kampfsporttraining mit Echtzeit-3D-Vorhersage menschlicher Posen mit einer RGB-Kamera. In Medioni, G., Bowyer, K. & Dickinson, S. (Hrsg.) 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), 1384–1392, https://doi.org/10.1109/WACV.2019.00152 ( 2019).
Moore, IS Gibt es eine wirtschaftliche Lauftechnik? Eine Übersicht über modifizierbare biomechanische Faktoren, die die Laufökonomie beeinflussen. Sportmed. 46, 793–807. https://doi.org/10.1007/s40279-016-0474-4 (2016).
Artikel PubMed PubMed Central Google Scholar
Patoz, A., Lussiana, T., Breine, B., Gindre, C. & Hébert-Losier, K. Es gibt kein globales Laufmuster, das bei Ausdauerlaufgeschwindigkeiten wirtschaftlicher ist als ein anderes. Int. J. Sportphysiol. Perform.https://doi.org/10.1123/ijspp.2021-0345 (2022).
Artikel PubMed Google Scholar
Moore, IS, Jones, AM & Dixon, SJ Mechanismen für eine verbesserte Laufökonomie bei Anfängerläufern. Med. Wissenschaft. Sportübung. 44, 1756–1763. https://doi.org/10.1249/MSS.0b013e318255a727 (2012).
Artikel PubMed Google Scholar
Pizzuto, F., Rago, V. & Sirimarco, F. Biomechanische Parameter korrelierten mit der Laufökonomie bei Langstreckenläufern. In Proceedings of the North American Congress on Biomechanics (2015).
Rendos, NK, Harrison, BC, Dicharry, JM, Sauer, LD & Hart, JM Sagittalebene Kinematik während des Übergangslaufs bei Triathleten. J. Sci. Med. Sport 16, 259–265. https://doi.org/10.1016/j.jsams.2012.06.007 (2013).
Artikel PubMed Google Scholar
Jebeli, M., Bilesan, A. & Arshi, A. Eine Studie zur Validierung von KinectV2 im Vergleich zum Vicon-System als Bewegungserfassungssystem für den Einsatz in der Gesundheitstechnik in der Industrie. Nichtlineare Eng. 6, 95–99. https://doi.org/10.1515/nleng-2016-0017 (2017).
Artikel ADS Google Scholar
Lin, T.-Y. et al. Microsoft COCO: Gemeinsame Objekte im Kontext. In Fleet, D., Pajdla, T., Schiele, B. & Tuytelaars, T. (Hrsg.) Proceedings of the 13th European Conference on Computer Vision (ECCV), 740–755, https://doi.org/10.1007 /978-3-319-10602-1_48 (2014).
Andriluka, M., Pishchulin, L., Gehler, P. & Schiele, B. 2D-Schätzung der menschlichen Pose: Neuer Maßstab und Analyse auf dem neuesten Stand der Technik. In Dickinson, S., Metaxas, D. & Turk, M. (Hrsg.) Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014).
Cao, Z., Simon, T., Wei, S.-E. & Sheikh, Y. Echtzeit-2D-Posenschätzung für mehrere Personen unter Verwendung von Teilaffinitätsfeldern. In Chellappa, R., Zhang, Z. & Hoogs, A. (Hrsg.) Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017).
Jin, S. et al. Ganzkörper-Posenschätzung eines Menschen in freier Wildbahn. In Vedaldi, A., Bischof, H., Brox, T. & Frahm, J.-M. (Hrsg.) Proceedings of the 16th European Conference on Computer Vision (ECCV), https://doi.org/10.1007/978-3-030-58545-7_12 (2020).
Xu, Y., Zhang, J., Zhang, Q. & Tao, D. ViTPose: Einfache Vision-Transformator-Grundlinien für die Schätzung der menschlichen Pose. arXiv2204.12484 (2022).
Ionescu, C., Papava, D., Olaru, V. & Sminchisescu, C. Human3.6M: Groß angelegte Datensätze und Vorhersagemethoden für die dreidimensionale menschliche Wahrnehmung in natürlichen Umgebungen. IEEE Transactions on Pattern Analysis and Machine Intelligence36, 1325–1339 (2014).
Shan, W., Lu, H., Wang, S., Zhang, X. & Gao, W. Verbesserung der Robustheit und Genauigkeit durch relative Informationskodierung bei der 3D-Posenschätzung des Menschen. In Proceedings of the 29th ACM International Conference on Multimedia, 3446–3454 (2021).
Li, W. et al. Ausnutzung zeitlicher Kontexte mit Strided-Transformator zur dreidimensionalen Schätzung der menschlichen Pose. IEEE Trans. Multimedia 25, 1282–1293 (2022).
Artikel Google Scholar
Hu, W., Zhang, C., Zhan, F., Zhang, L. & Wong, T.-T. Bedingte gerichtete Graphfaltung zur 3D-Posenschätzung des Menschen. In Shen, HT, Zhuang, HT & Smith, JR (Hrsg.) Proceedings of the 29th ACM International Conference on Multimedia (MM '21), 602–611, https://doi.org/10.1145/3474085.3475219 (2021).
Xu, J. et al. Umfassende Kinematikanalyse zur monokularen 3D-Schätzung der menschlichen Pose. In Boult, T., Medioni, G. & Zabih, R. (Hrsg.) Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020).
Sárándi, I., Linder, T., Arras, KO & Leibe, B. MeTRAbs: Trunkierungsrobuste Heatmaps im metrischen Maßstab für die absolute 3D-Posenschätzung des Menschen. IEEE Trans. Biom., Verhalten, Identitätswissenschaft. 3, 16–30. https://doi.org/10.1109/TBIOM.2020.3037257 (2021).
Artikel Google Scholar
Pavlakos, G., Zhou, X., Derpanis, KG & Daniilidis, K. Grobe bis feine volumetrische Vorhersage für die menschliche 3D-Einzelbildhaltung. In Chellappa, R., Zhang, Z. & Hoogs, A. (Hrsg.) Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017).
Sun, X., Xiao, B., Wei, F., Liang, S. & Wei, Y. Integrale menschliche Pose-Regression. In Proceedings of the European Conference on Computer Vision (ECCV) (2018).
Citraro, L. et al. Echtzeit-Kamerapositionsschätzung für Sportplätze. Mach. Vis. Appl. 31, 16. https://doi.org/10.1007/s00138-020-01064-7 (2020).
Artikel Google Scholar
Farin, D., Krabbe, S., With, de, P. & Effelsberg, W. Robuste Kamerakalibrierung für Sportvideos unter Verwendung von Platzmodellen. In Yeung, M., Lienhart, R. & Li, C.-S. (Hrsg.) Storage and Retrieval Methods and Applications for Multimedia, San Jose (CA), Proceedings of SPIE, 80–91, https://doi.org/10.1117/12.526813 (SPIE, Vereinigte Staaten, 2004).
Tsurusaki, H., Nonaka, K., Watanabe, R., Konno, T. & Naito, S. [Papier] Sportkamerakalibrierung mithilfe flexibler Kreuzungsauswahl und -verfeinerung. ITE Trans. Medientechnik. Appl. 9, 95–104. https://doi.org/10.3169/mta.9.95 (2021).
Artikel Google Scholar
Sha, L. et al. End-to-End-Kamerakalibrierung für Broadcast-Videos. Im Jahr 2020 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR) 13624–13633 (2020).
Phinyomark, A., Petri, G., Ibáñez-Marcelo, E., Osis, ST & Ferber, R. Analyse von Big Data in der Gangbiomechanik: Aktuelle Trends und zukünftige Richtungen. J. Med. Biol. Ing. 38, 244–260. https://doi.org/10.1007/s40846-017-0297-2 (2018).
Artikel PubMed Google Scholar
Figueiredo, J., Santos, CP & Moreno, JC Automatische Erkennung von Gangmustern bei motorischen Störungen des Menschen durch maschinelles Lernen: Eine Übersicht. Med. Ing. Physik. 53, 1–12. https://doi.org/10.1016/j.medengphy.2017.12.006 (2018).
Artikel PubMed Google Scholar
Boyer, KA, Freedman Silvernail, J. & Hamill, J. Die Rolle der Laufleistung auf Koordinationsmuster beim Laufen. J. Appl. Biomech. 30, 649–654. https://doi.org/10.1123/jab.2013-0261 (2014).
Artikel PubMed Google Scholar
Xu, D. et al. Erklären der Unterschiede in den Gangmustern zwischen Läufern mit hoher und geringer Laufleistung durch maschinelles Lernen. Wissenschaft. Rep. 12, 2981. https://doi.org/10.1038/s41598-022-07054-1 (2022).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Nigg, BM, Baltich, J., Maurer, C. & Federolf, P. Auswirkungen von Schuhzwischensohlenhärte, Geschlecht und Alter auf die Kinematik der unteren Extremitäten beim Laufen. J. Biomech. 45, 1692–1697. https://doi.org/10.1016/j.jbiomech.2012.03.027 (2012).
Artikel PubMed Google Scholar
Riley, PO et al. Ein kinematischer und kinetischer Vergleich von Überboden- und Laufbandlauf. Med. Wissenschaft. Sportübung. 40, 1093–1100. https://doi.org/10.1249/MSS.0b013e3181677530 (2008).
Artikel PubMed Google Scholar
Wank, V., Frick, U. & Schmidtbleicher, D. Kinematik und Elektromyographie der unteren Extremitätenmuskulatur beim Laufen über Boden und auf dem Laufband. Int. J. Sports Med. 19, 455–461. https://doi.org/10.1055/s-2007-971944 (1998).
Artikel CAS PubMed Google Scholar
Chen, J. & Little, JJ Kalibrierung von Sportkameras anhand synthetischer Daten. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 0–0 (2019).
Chu, Y.-J. et al. Sportplatzanmeldung über Keypoints-Aware-Label-Bedingung. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 3523–3530 (2022).
Theiner, J. & Ewerth, R. Tvcalib: Kamerakalibrierung für die Sportplatzregistrierung im Fußball. arXivhttps://doi.org/10.48550/ARXIV.2207.11709 (2022).
Duda, RO & Hart, PE Verwendung der Hough-Transformation zur Erkennung von Linien und Kurven in Bildern. Komm. ACM 15, 11–15 (1972).
Artikel MATH Google Scholar
Dai, X., Gong, H., Wu, S., Yuan, X. & Yi, M. Vollständig gefaltetes Zeilenparsing. Neurocomputing 506, 1–11. https://doi.org/10.1016/j.neucom.2022.07.026 (2022).
Artikel Google Scholar
Xu, Y., Xu, W., Cheung, D. & Tu, Z. Liniensegmenterkennung mit Transformatoren ohne Kanten. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4257–4266 (2021).
Li, H. et al. Ulsd: Einheitliche Liniensegmenterkennung für Lochkameras, Fischaugenkameras und sphärische Kameras. ISPRS J. Fotogramm. Fernbedienung. Sens. 178, 187–202. https://doi.org/10.1016/j.isprsjprs.2021.06.004 (2021).
Artikel ADS Google Scholar
Mammeri, A., Boukerche, A. & Lu, G. Fahrspurerkennungs- und -verfolgungssystem basierend auf dem Mser-Algorithmus, der Hough-Transformation und dem Kalman-Filter. In Proceedings of the 17th ACM International Conference on Modeling, Analysis and Simulation of Wireless and Mobile Systems, MSWiM '14, 259–266, https://doi.org/10.1145/2641798.2641807 (Association for Computing Machinery, New York, NY, USA, 2014).
Zhou, Y., Qi, H., Huang, J. & Ma, Y. Neurvps: Neuronales Fluchtpunktscannen mittels konischer Faltung. Fortschritte in neuronalen Informationsverarbeitungssystemen32 (2019).
Cottam, DS et al. Messung der uniplanaren und sportspezifischen Rumpfbewegung mit magneto-inertialen Messeinheiten: Die gleichzeitige Gültigkeit von Noraxon- und Xsens-Systemen im Vergleich zu einem retroreflektierenden System. Ganghaltung 92, 129–134. https://doi.org/10.1016/j.gaitpost.2021.11.012 (2022).
Artikel PubMed Google Scholar
Mildenhall, B. et al. NeRF: Darstellung von Szenen als neuronale Strahlungsfelder für die Ansichtssynthese. Im ECCV (2020).
Referenzen herunterladen
Open-Access-Förderung ermöglicht und organisiert durch Projekt DEAL. Diese Forschung wurde teilweise vom „Bundesministerium für Bildung und Forschung“ (BMBF) mit der Fördernummer 16DHB4014 gefördert.
Institut für Bewegungstraining und Sportinformatik, Deutsche Sporthochschule, Köln, Deutschland
Tobias Baumgartner & Stefanie Klatt
Deutsches Forschungszentrum für Künstliche Intelligenz, Berlin, Deutschland
Benjamin Paaßen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
TB: Datenkuration; Methodik; Software; Implementierung; Datenerfassung; Untersuchung; Formale Analyse; Visualisierung; Ursprüngliche Entwurfsvorbereitung. BP: Validierung; Überprüfen und Bearbeiten. SK: Fördermittelakquise; Projektverwaltung; Aufsicht; Überprüfen und Bearbeiten. Alle Autoren haben das Manuskript überprüft.
Korrespondenz mit Tobias Baumgartner.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Baumgartner, T., Paassen, B. & Klatt, S. Extrahieren von räumlichem Wissen aus Leichtathletikübertragungen für die monokulare 3D-Posenschätzung des Menschen. Sci Rep 13, 14031 (2023). https://doi.org/10.1038/s41598-023-41142-0
Zitat herunterladen
Eingegangen: 14. September 2022
Angenommen: 22. August 2023
Veröffentlicht: 28. August 2023
DOI: https://doi.org/10.1038/s41598-023-41142-0
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.