1. Leben
  2. Internet

Bilderkennung-Software funktioniert so gut, dass sie verändern könnte, wie Menschen im Internet suchen.

Trend bei Online-Suche : Wie Computer das Sehen lernen

Nach Jahrzehnten der Forschung funktioniert Bilderkennungs-Software so gut, dass sie verändern könnte, wie Menschen im Internet suchen.

Zwei Monate im Sommer des Jahres 1966 – mehr Zeit erhielten Studenten des berühmten Massachusetts Institute of Technology in Amerika nicht, um eine Aufgabe zu bewältigen, deren Lösung die IT-Forschung noch Jahrzehnte beschäftigen würde. Die Schützlinge von Professor Seymour Papert sollten Computern das Sehen beibringen. Genauer: Software sollte zu erkennen, was sich auf einem Bild befindet. Ist das ein Ball? Ein Ziegelstein? Die Beschriftung einer Zigarettenschachtel? Der Professor hielt das Sommerprojekt für eine gute Übung. Wirklich anwendbar ist die Technologie erst 50 Jahre später. Dank der Fortschritte, die im Feld des maschinellen Lernens erzielt wurden, schickt sich Bilderkennung an, der nächste große Trend im Bereich der Online-Suche zu werden.

Google machte Anfang des Jahres seine Handy-App Lens für alle Smartphones verfügbar und erst anlässlich seines 20-jährigen Bestehens vor wenigen Wochen führte der Internetkonzern die Funktion auch für die Suche am Heimrechner ein. Mit Lens will Google den Nutzern einiges bieten. Als erstes wären da die rein kommerziellen Anwendungen: Erkennt die App beispielsweise anhand des Kamerabildes schwarze Schnürschuhe, so kann sie ähnliche Modelle und finden und zeigen, wo diese zu kaufen sind. Mittlerweile gibt es eine ganze Reihe von Anbietern mit ähnlichen Diensten. Dazu gehört Microsofts Suchmaschine Bing, das soziale Netzwerk Pinterest, aber auch Online-Shops wie der britische Modeversand Asos, die nur das eigene Sortiment nach Entsprechungen durchkämmen, wie das amerikanische Technik-Portal „Engadget“ berichtet.

Lens soll jedoch mehr können als Produktempfehlungen – schließlich ist es für Google auch interessant zu wissen, was die Nutzer sonst so treiben und wofür sie sich interessieren. So soll die App auch merken, vor welcher Sehenswürdigkeit ein Tourist steht oder welches Kunstwerk er betrachtet, und passende Informationen einblenden. Das Gleiche gilt für Tiere und Pflanzen. Ob es die Rasse eines Hundes geht, dem der Anwender im Park begegnet, oder die Art des Baumes, unter dem er Schutz vor Regen gesucht hat: Alle diese Informationen soll die visuelle Suche automatisch, bezogen auf das das Echtzeit-Kamerabild oder anhand gespeicherter Fotos aufrufen können, wie der Internetkonzern wirbt.

Das Problem für die Software bleibt dabei immer gleich. Sie muss völlig unabhängig von den Lichtverhältnissen, der Bildqualität, dem Blickwinkel und dem Zustand eines Objekts das richtige Ergebnis liefern. Doch wie lernt der Computer, eine derart komplexe Aufgabe zu bewältigen? Woran die Studierenden des MIT in den 60er-Jahre noch scheitern mussten, schaffte Microsoft auch vor wenigen Jahren noch nicht. Wie „Search Engine Watch“, ein Portal für Nachrichten über Suchmaschinen, berichtet, schaltete der Windows-Konzern 2012 eine frühe Version der Bilderkennung in seiner Bing-Suche wieder ab, weil diese so schlecht funktioniert hatte, dass Nutzer sie links liegen ließen.

Den entscheidenden Unterschied machen nun die jüngsten Fortschritte im Bereich des maschinellen Lernens. Informatiker lassen dabei Computerprogramme auf riesige Mengen an Foto- und Videodaten los, die als Anschauungsmaterial dienen. Dem Computer verständlich zu machen, was sich auf einem Bild abspielt, fällt dabei im ersten Schritt noch immer Menschen zu. Im Fall von Google helfen bei dieser Aufgabe Millionen von Internetnutzern, ohne sich ihrer wertvollen Arbeit für den Konzern bewusst zu sein. Wer auf einer Webseite schon mal anhand eines Bilderrätsels beweisen musste, dass er ein Mensch ist, der hat gleichzeitig die Software des Internetkonzerns gelehrt: „Das ist ein Auto“ oder „Das ist eine Ladenfront“.

In Zukunft dürften die Entwickler die visuelle Bildsuche verschränken mit Anwendungen aus dem Bereich der Augmented Reality, bei welcher die echte Welt um virtuelle Gegenstände angereichert wird. So könnten Nutzer beispielsweise bald auf ihren Handy-Bildschirmen überprüfen, wie gut ihnen die Sonnenbrille steht, die Brad Pitt in seinem neuesten Film trägt – die Bildsuche findet das richtige Modell und die Augmented-Reality-Anwendung setzt es dem Nutzer virtuell auf die Nase.

Die Texterkennung ist besonders sehbehinderten Menschen eine große Hilfe. Foto: dpa-tmn/Andrea Warnecke

Dass sich diese Technologie jedoch nicht nur nutzen lässt, um Waren an den Mann zu bringen, zeigt eine Vielzahl von Anwendungen, die speziell auf die Bedürfnisse von sehbehinderten Menschen zugeschnitten sind. Wie Oliver Nadig vom Deutschen Blinden- und Sehbehindertenverband unserer Zeitung erklärt, liegt der größte Nutzen, den blinde Menschen aus der neuen Technologie ziehen können, jedoch nicht etwa in der Erkennung und Unterscheidung von Objekten wie Hunden und Katzen, Töpfen oder Trinkgläsern. Spannender sei die Möglichkeit, per Handy Personen zu identifizieren und zu beschreiben, gedruckte und handschriftliche Text vorzulesen zu lassen oder Strich- und QR-Codes zu scannen. So helfe die Bilderkennung blinden Menschen im Alltag beispielsweise, eine bestimmte Konservendose zu finden oder das richtige Klingelschild.