System-Integration AI Vision – Gesture Recognition

Kassenlose Einkaufsfilialen – ein Schritt in die Zukunft?

Amazon schreitet mit seiner „Just Walk Out“ Technologie Richtung autonomen Einzelhandel.

Am 4. März dieses Jahres eröffnet Amazon seinen ersten kassenlosen Supermarkt in Europa. Das Konzept ist für Händler und Verbraucher angenehm unkompliziert. Beim Betreten des Ladens authentifiziert sich der Kunde via App und wird mittels framebasierter Bilderkennung im Laden getrackt. Dabei unterstützen Sensoren wie Regalwaagen die Verfolgung des Einkaufs. Bezahlt wird automatisch beim Verlassen der Filiale.

Für Läden mit hochfrequentierten Besucherzahlen wie in Flughäfen oder Läden in Fußballstadien könnten von dieser Technologie am meisten profitieren.

Doch die Investitionskosten sind auch für Amazon sehr hoch, so schlägt das Aufrüsten einer Pilot-Filiale schätzungsweise mit drei Millionen US-Dollar schwer zu buche.

Unklar ist bis heute, wann die ersten Supermärkte nach Deutschland kommen werden.

Um dieses Konzept zu nutzen, ist es zwingend notwendig, dass alle Kunden den Datenschutzrichtlinien zugestimmt haben. Dies gestaltet sich jedoch schwierig bei deutschen Einzelhändlern, da Kundenüberwachung für die meisten einen schlechten Beigeschmack hat.

Kundenvertrauliche Informationen dürfen laut DSGVO nicht ohne Zustimmung analysiert und verarbeitet werden.

Die neue Art der Videoaufnahme

Unser Ansatz bei HS Analysis ist es das Kaufverhalten getrennt von der Person zu analysieren, um eine maximale Informationsgewinnung und den Schutz der Privatsphäre des Kunden zu garantieren.

Dank neuster Kameratechnologien, der eventbasierten Kameras, sind Rohdatenströme nicht wie bei konventionellen digitalen Kameras einzelne Bilder, sondern mathematische Matrizen die Pixelveränderungen erfassen. Neuromorphe Kameras, wie sie auch genannt werden, funktionieren ähnlich dem menschlichen Sehsinn.

Im Gegensatz zu konventionellen, auf Bildern basierende Kameras erkennt der eventbasierte Photodetektor lokale Änderungen einzelner Pixel. In Abbildung 1 wird der Unterschied an der Aufnahme einer laufenden Wildkatze veranschaulicht. Bei üblichen Kameras wird in getakteten Intervallen ein Bild gemacht. Alle Bildinformationen wie Hintergrund, Farben und Katze sind vorhanden. Der eventbasierte Photosensor erkennt nur Pixelveränderungen, in diesem Fall die laufende Katze und die Dauer der Änderung für jeden Pixel individuell.

Abbildung 1: Vergleich Frambasiert und Eventabsierte Aufnahmen
Quelle: wikipedia.com

Es werden also nur Bewegungen getrackt. Neben dem Schutz der Person bietet dieser Ansatz einen weiteren Vorteil. Die Datenmenge ist laut eignen Erfahrungswerten ungefähr fünf Mal niedriger als bei konventionellen digitalen Kameras. Dies wirkt sich positiv auf die Bildverarbeitung mit Neuronalen Netzen aus, da statische Bildinformationen nicht erfasst werden.

Erste Datenerhebungen wurden schon gemacht. Zu diesem Experiment gibt es auch Aufzeichnungen.

Biologische Programmierung mit Spiking Neural Networks

Wie die meisten Erfindungen, kommt auch der Ursprung der Spiking Neuronal Networks, kurz SNN aus der Natur. Die SNN-Architektur ist eine Imitation des Gehirns. Das menschliche Gehirn ist der leistungsfähigste und optimierteste Computer, den die Natur hervorgebracht hat. Wie in Abbildung 2 zu sehen ist, befindet sich das Gehirn die meiste Zeit im Ruhemodus, um Energie zu sparen.

Ein Bild, das Text enthält.

Automatisch generierte Beschreibung — Abbildung 2: Hirnaktivitäten eines Zebrafisches
Quelle: www.hhmi.org

Da ungefähr 10% der weltweiten CO2 Emissionen für Berechnungen, besonders für das Internet aber auch immer mehr für künstliche Intelligenz, ist von großem Interesse eine ressourcensparende Lösung zu finden. Eine Lösung könnten die SNNs sein.

Die Funktionsweise kann man sich wie folgt vorstellen. Der kleineste Baustein ist wie im Gehirn das Neuron. Die Eingänge, die an das Nervensystem geknüpft sind, können eine Spannung bei Erregung an das Neuron anlegen. Wird die Durchbruchsspannung, auch Threshold Spannung genannt überschritten, kommt es zu einer Erregung und Reaktion.

Abbildung 3: Einzelnes Spiking Neuron
Quelle: snntorch.readthedocs.io/

Eventbasierte Videos als Eingabe für SNNs

In Kombination mit eventbasierten Kameradaten wie in Kapitel Die neue Art der Videoaufnahme beschreiben, werden die Vorteile des Deep Learning Netzwerks vervielfacht. Denn das Konzept der Rechen-Sparsamkeit wirkt sich vor allem positiv auf den Energieverbrauch aus. Verändert sich das Eingabebild nicht, wird der Input nicht verarbeitet.

Abbildung 4: Input und Input Suppression
Quelle: snntorch.readthedocs.io/

Die Vorteile für den Einzelhandel

Was bedeutet dies für den Einzelhandel? Amazons Konzept ist für viele Einzelhändler nicht umsetzbar. Es kann unmöglich garantiert werden, dass alle Kunden den Datenschutzrichtlinien zugestimmt haben. Es bedarf also eines Überwachungssystems, welches ohne Eingriff in die Privatsphäre das Kaufverhalten der Kunden analysieren kann.

Eventbasierte Daten wären eine vielversprechende Möglichkeit, Bewegungen zu tracken, ohne die Identität der Person zu enthüllen. Dies ein wichtiger Baustein für die Automatisierung des Einzelhandels. Jedoch kann ist unwahrscheinlich, über eventbasierte Datenwolken die gekauften Produkte zu identifizieren. Lösungsansätze könnten RFID Chips sein, Regalwagen oder ein weiteres neuronales Netz, dass auf Produkterkennung trainiert wurde.

Forschungsprojekt Einzelhandel

Künstliche Intelligenz wird für Bilderkennung im medizinischen Bereich schon seit Jahren bei HS Analysis erfolgreich genutzt. Durch das Know-How und die akademische Expertise zeichnet sich HS Analysis aus und bietet ein solides Fundament für Forschung und Integration bestehender Technologien im Einsatzgebiet Einzelhandel. Die ersten Forschungsergebnisse zeigen vielversprechende Ergebnisse, obwohl es kaum Hardware gibt, die auf diese Art von Algorithmen spezialisiert ist. Aktuell gibt es jedoch viele Chips, die in Entwicklung sind wie Intels KI-Chip Loihi oder Akidas Brainchip. Laut den ersten Forschungserbnissen wurde der Leistungsbedarf auf neuromorpher Hardware drastisch reduziert.

Ausblick

Diese Einführung soll für die Komplexität der Problematik sensibilisieren. Der Datenschutz sowie auch der immense Energiebedarf sind wichtige Baustellen, denen man sich bewusst sein sollte. Zwar sind Arificial Neural Networks in Objekt Erkennung genauer als SNNs, sind jedoch sehr viel rechenintensiver und auch der Datenschutz kann nicht garantiert werden. Aus diesen Gründen hat sich HS Analysis für eventbasierten Kameradaten und eine SNN Architektur entschieden.

Fakt ist, dass beide Deep Learning Architekturen Vorteile und auch Schwächen mit sich bringen. Bilderkennung im Einzelhandel ist eine hochkomplexe Aufgabe, die nicht mit einer einfachen Lösung gemeistert werden kann.

HSA TRAC

Die Anwendung der SNNs in Verbindung mit eventbasierten Kameradaten ist ein Nischenprodukt HSA TRAC mit vielversprechenden Ergebnissen.

Unser Produkt HSA TRAC basiert auf dem Training von Spiking Neural Networks mit eventbasierten Groundtruth-Daten, um Bewegungen und Gesten der älteren Personen im medizinischen Kontext zu erkennen. So wird ein Herzinfarkt oder auch andere Pathologien automatisiert in Wohnungen der älteren Leute erkannt, automatisch ein Notruf ausgelöst. Falls unser Produkt HSA TRAC mit Daten aus dem Handel trainiert wird, können wir die Kunden bei einem Einkauf analysieren und bestimmte Gruppen und Verhaltensmuster erkennen.

Das Produkt enthält eine Kombination aus SNN und CNN, wobei sich das Convolutional Neural Network auf die Produkterkennung fokussiert und das Spiking Neural Network auf die Verhaltenserkennung der Kunden.