Visual Recognition: Definition und Möglichkeiten

Wir entwickeln bereits im Mutterleib unser Sehvermögen. Nachdem wir das Licht der Welt erblickt haben, können wir unsere Umwelt allerdings nur teilweise wahrnehmen. Das Erkennen von Farbnuancen, das Fokussieren von Gegenständen und die Tiefenwahrnehmung sind eine große Herausforderung für kleine Menschen, denn Babies sind auch zum regulären Geburtstermin physiologische Frühgeburten verglichen mit allen anderen Säugetieren. Aber nach etwa acht Monaten haben wir es geschafft: Unser Sehvermögen ähnelt jetzt dem eines Erwachsenen. In den Laboren der Zukunft wird schon länger an der Entwicklung des Sehvermögens einer KI geschraubt. Schon jetzt erreichen aktuelle Systeme bemerkenswerte Ergebnisse.

Wie funktioniert das?

Viele Forscher sehen hinter dem maschinellen Sehen eine der kompliziertesten Aufgaben für eine künstliche Intelligenz. Es geht darum Bilder und Videos zu verstehen und sich an den Fähigkeiten der menschlichen Visualisierung zu orientieren. Dabei wirft selbst die Funktionsweise unseres biologischen Sehsystems noch viele Fragen auf und ist nur teilweise erforscht. Für die Vorgehensweise der maschinellen Bildanalyse haben Wissenschaftler ein Modell entwickelt.

Modell nach Marr (1982)

Als erster Schritt entwirft der Algorithmus eine Rohskizze aus dem eigentlichen Bild. Darin werden unterschiedliche Helligkeitsstufen beschrieben und lokalisiert, um so verschiedene Objekte auf dem Bild zu finden. Gibt es große Helligkeitsunterschiede so erkennt die KI dies als Kante. Anschließend wird mit Hilfe des Algorithmus eine 2-½-D-Skizze mit ersten erkennbaren Tiefen entworfen. Dank weiteren Auswertungen von Schatten, Texturen und Überdeckungen werden so Tiefeninformationen gewonnen. Es entsteht ein erstes dreidimensionales Bild unserer Welt. Dieses nutzt die KI, um ein Gesamtbild der Situation zu erstellen und das unabhängig von der Betrachterperspektive. Einzelne 3D-Objekte werden dann mit einer Datenbank abgeglichen und identifiziert.

Die Bildanalyse

Nachdem einzelne Objekte erkannt wurden, geht es nun darum, die Bildszene zu verstehen. Die mögliche Interpretation hängt hierbei maßgeblich von der Fragestellung ab.

Mögliche Interpretationen dieses Bildes:

ein Schwarz-Weiß-Bild
3 Kreise, 1 Bogen und 20 Strecken
Mensch und Auto
Emotion: Lachen
ein Fußgänger überquert die Straße

Demnach gibt es keine allgemeine Arbeitsweise zur Bildanalyse. Dank Machine Learning werden die Analysen nach jeder Anwendung »schlauer« und die künstliche Intelligenz perfektioniert die Verknüpfung zwischen seinen künstlichen Synapsen.

Wer kann das?

Alle großen Player unter den künstlichen Intelligenzen bieten spezielle Hilfsmittel für die Bilderkennung an. Noch existieren keinerlei maschinellen Sehsysteme, die auch nur annährend die Leistung bringen, welche unsere menschlichen Systeme leisten können. IBM schickt seine künstliche Intelligenz Watson mit »Visual Recognition« ins Rennen, Google bietet seine leistungsstarke »Cloud Vision API« an, Amazon schafft es, mit »Rekognition« täglich Milliarden von Bildern zu analysieren und Microsoft Azure bietet ebenfalls seine eigene Software für Maschinelles Sehen.

Was kann ich damit machen?

Doch was bringen diese neuartigen Modelle, wenn wir noch gar keinen Nutzen daraus ziehen können? Unternehmen haben spannende Anwendungsbeispiele gefunden, bei denen künstliche Intelligenzen uns mit ihren »maschinellen Augen« unterstützen können. Die KIs werden dabei mit ihren Bildanalysefähigkeiten auf die jeweiligen Situationen angepasst, damit sie zielgerichtet ihre Aufgaben erledigen können.

Google Lens – die Volks-Bildanalyse

Google macht die maschinelle Bildanalyse für jeden greifbar. Mit ihrer App »Google Lens« ist es möglich, Objekte mit seinem Smartphone zu fotografieren und diese an Google zu schicken. Anschließend versucht der Google Assistent, das Bild zu interpretieren und wichtige Informationen zu liefern. So erhält man Daten zu Gebäuden, die Gattung der Pflanze im Wohnzimmer oder die Hunderasse des Nachbars. Quasi, die Volks-Bildanalyse-App.

Safety First!

Amazon bietet seit einiger Zeit eine Version seines Fire-Tablets extra für die Kleinsten von uns an. Sie versprechen Seelenfrieden für Kinder. Die Sprösslinge erhalten eigene Bild- und Videoinhalte, welche einen Bogen um unsichere und unangemessene Inhalte macht. Diese Auswahl stammt größtenteils natürlich nicht von einer realen menschlichen Person, sondern von einer künstlichen Intelligenz. Hier greift Amazon selbstverständlich auf sein eigenes Tool »Amazon Rekognition« zurück.

Ihr neuer Mitarbeiter: Watson

Bei John Deere, einer der größten Landtechnikhersteller der Welt, verlassen im Werk Mannheim jeden Monat mehr als 2000 Traktoren die Bänder. Um diese Zahlen zu schaffen, braucht es leistungsstarke Mitarbeiter. Mit vielen Auszeichnungen wie »Mitarbeiter des Monats« schafft es Watson unentbehrlich für seinen Arbeitgeber zu werden. Seine »maschinellen Augen« scannen Bauteile nach Fehlern ab und unterstützen beim Picken im Lager. Die Fehlerquote geht dabei gegen Null.

Bildsortierung

Einer der einfachsten Aufgaben für künstliche Intelligenzen ist das Sortieren von Fotos nach Inhalt. So müssen in Zukunft riesige Bibliotheken nicht von Praktikanten getaggt und sortiert-, sondern lediglich durch ein Analysetool gejagt werden. Das spart Zeit und Nerven und ist vor allem genauer. Wie solche Tags funktionieren, könnt ihr bei Google oder IBM direkt ausprobieren. Ob das jedoch auch Historiker, Kunsthistoriker und Bibliothekare ersetzt, die subtilere Fähigkeiten der Kontextualisierung beherrschen müssen, bleibt abzuwarten.

Von der Bilderkennung zum Überwachungswahn

Das Ministerium für Staatssicherheit hätte sich sicher gefreut: Mit der intelligenten Bilderkennung sind wir nicht mehr weit von der Komplettüberwachung entfernt. Mit seinem Wunderwerk »Rekognition« verfolgt Amazon im Auftrag der Polizei schon selbständig Straftäter. Gespeist mit Verbrecherfotos macht sich das System auf die Suche und wird sogar in großen Menschenmassen fündig. Auch in China zeigt sich ein Trend: Bis 2020 sollen dort über 500 Millionen Überwachungskameras installiert werden, welche ihre Daten mit Gesichtserkennungsdatenbanken abgleichen.