Deep Learning mit Time-of-Flight Sensorik

16.6.2020
June 16, 2020

Mit Ansätzen aus der Bildverarbeitung und der künstlichen Intelligenz (KI) realisieren wir bei Data Spree spezialisierte Lösungen für unsere Kunden und setzen dabei auf unsere KI. Dabei unterstützen wir sie von Anfang bis Ende, das heißt von der Datenakquise und Annotation, über das Training von KI-Modellen, bis zur Bereitstellung der Lösung auf der Zielhardware.

Deep-Learning-Ansätze bieten nicht nur durch eine erhöhte Genauigkeit Vorteile gegenüber klassischen Verfahren der Bildverarbeitung, sondern auch durch die reduzierte Entwicklungszeit von einsatzbereiten Systemen. Weiterhin können die Anwendungen kontinuierlich über den kompletten Lebenszyklus der Systeme verbessert werden und somit unter geänderten Randbedinungen gleichbleibende Ergebnisse erbringen. Während die Anwendung dieser Verfahren sich über viele Bereiche erstreckt, treten die Stärken von Deep Learning basierter Bildverarbeitung besonders bei einem hohen Variantenreichtum der zu untersuchenden Gegenstände auf. Ein sehr gutes Beispiel hierfür ist die Sortierung und Verarbeitung von landwirtschaftlichen Erzeugnissen. Diese können sich in Form und Farbe stark voneinander unterscheiden, was klassische Bildverarbeitungsmethoden vor große Herausforderungen stellt. Zusätzlich erschweren oft unterschiedliche Lichtverhältnisse das Erstellen von generalisierten Lösungen, wodurch RGB-Kameras nur noch einen geringen Vorteil gegenüber Graustufenaufnahmen bieten.

Abhilfe schaffen hier 3D-Kameras, wie die Basler blaze, die über die Time-of-Flight (ToF) Methode nicht nur Graustufenaufnahmen als Intensitätsbild erzeugen, sondern zusätzlich, über Laufzeitmessungen von Lichtimpulsen im nahen Infrarotbereich (NIR), Distanzmessungen für jeden einzelnen Pixel vornehmen. Die resultierende Aufnahme kann anschließend als 2D-Tiefenbild oder als 3D-Punktwolke weiterverarbeitet werden und liefert zusätzliche Informationen über die abgebildete Szene. Im Vergleich zu 2D-RGB-Aufnahmen werden hier die Farbinformationen durch Forminformationen ersetzt, welches nicht nur Vorteile bei der gleichzeitigen Erkennung von roten und grünen Äpfeln hat, sondern zusätzliche Applikationen ermöglicht, wie z.B. das genau Positionieren und Vermessen der erkannten Objekte.

Basler blaze ToF 3D Kamera

Für hochgenaue und robuste Anwendungen können die Stärken von Deep Learning und ToF kombiniert werden, um bisher ungelöste Problemstellungen zuverlässig zu bewältigen. In einer Beispielanwendung für die Detektion und Klassifikation von Früchten zeigen wir, wie man mit der Basler blaze 3D-Kamera und der Deep Learning DS KI-Plattform von Data Spree eine Echtzeitlösung entwickelt, ohne jegliche Programmier- und Deep Learning Vorkenntnisse. Durch die Tageslichttauglichkeit und IP67 Schutzklasse der Basler blaze lässt sich diese Lösung auch direkt auf mobilen Arbeitsmaschinen in rauen Umgebungen einsetzen.

Der Arbeitsablauf für die Erstellung von den Deep Learning Modellen lässt sich generell in fünf Abschnitte unterteilen:

  • Datenakquise: Aufnahme von Beispielbildern
  • Annotation: Anreichern mit Metadaten
  • Training: Optimieren des Deep Neural Networks (DNN)
  • Bereitstellung (Deployment): Ausführen des Netzes auf der Zielhardware
  • Kontinuierliche Verbesserung des neuronalen Netzes durch neue Daten

Da diese Schritte zunächst nach einer großen Herausforderung wirken, haben wir mit Deep Learning DS eine Plattform entwickelt, um es dem Anwender so leicht wie möglich zu machen, in kürzester Zeit seine eigene Deep-Learning-Lösung zu entwickeln.

Zunächst müssen Bilder von den Früchten aufgenommen werden, welche wir später erkennen und klassifizieren wollen. Für diese Anwendung haben wir ca. 500 Bilder von Bananen, Äpfeln und Birnen mit der Basler blaze Kamera aufgenommen. Unsere Aufnahmesoftware erstellt 2-Kanal-Bilddaten aus der Graustufen-Intensitätsaufnahme und dem Tiefenbild, welches für jeden Pixel den Abstand in Millimetern enthält. Diese Bilddaten werden direkt in die Deep Learning DS Plattform geladen.

Anschließend werden diese Daten mit Metadaten angereichert. Dazu werden manuell Boxen um die Früchte gezeichnet und die entsprechende Kategorie (Apfel, Birne etc.) zugeordnet. Damit wird festgelegt, was dem neuronalen Netz im folgenden Schritt „beigebracht“ wird. Diesen Prozess können wir bereits nach circa 100 manuell annotierten Bildern beschleunigen, indem wir ein initiales Deep Learning Modell trainieren, welches uns Vorschläge für die weiteren Aufnahmen generiert, die wir anschließend nur noch korrigieren müssen.

Sind alle 500 Bilder annotiert, können wir über wenige Mausklicks ein weiteres Modell erstellen und automatisiert trainieren. Abhängig von der Datenmenge und der Komplexität der Aufgabe dauert dieser Prozess zwischen wenigen Stunden und einem Tag. Während des Trainings evaluieren wir zyklisch die Erkennungsgenauigkeit auf einem vorenthaltenem Testdatensatz, um die aktuelle Güte des Modells abzuschätzen. Sobald eine hinreichende Genauigkeit erreicht ist, lassen wir das Training noch etwas weiterlaufen, um die Robustheit der Erkennung zu verbessern.

Sobald das Training abgeschlossen ist, laden wir das fertig trainierte Modell herunter und können es über unsere Ausführungssoftware Inference DS direkt ausführen. Neben USB-, Netzwerk- und gängigen Industriekameras ist die Basler blaze ToF Kamera inklusive entsprechender Vorverarbeitung bereits vollständig integriert, sodass die Deep Learning Applikation direkt gestartet werden kann.

Wie bei jeder Bildverarbeitungsmethode ist Deep Learning ein Werkzeug, um bestimmte Informationen aus dem Kamerabild zu extrahieren, welche anschließend zur Applikationserstellung genutzt werden können. Mit der zusätzlichen Tiefeninformation der ToF-Kamera können wir die detektierten Früchte auch dreidimensional im Raum verorten, um beispielsweise in Sortieranlagen die genaue Position an einen Roboter zu übergeben.

Die Kombination von Time-of-Flight Kameras und Deep Learning ermöglicht es komplexe Aufgaben zeit- und kosteneffizient zu lösen, da das Anlernen der neuralen Netze von der räumlichen Information stark profitiert. Zudem erlaubt die aufgenommene 3D-Punktwolke ein genaues Positionieren und Vermessen von Objekten, wodurch komplementäre Sensorik in einer Vielzahl von Applikationen nicht mehr notwendig ist.