Wie Apps die Welt hörbar machen

· Lisa Mümmler

Texte vorlesen, Bilder und Videos beschreiben, Produkte, Personen und Farben erkennen: Das und mehr können Apps, die Künstliche Intelligenz (KI) nutzen. „Be My Eyes“ und „Seeing AI“ sind zwei für blinde und sehbehinderte Menschen entwickelte Anwendungen, die genau das tun. Die Sichtweisen-Redaktion hat beide getestet und stellt in diesem Beitrag die Funktionen und Unterschiede vor.

Auf einem Smartphonedisplay ist durch den Kamerasucher eine Deko-Schale zu sehen, in der ein Lavendelsäckchen, Karten und ein Namenschild liegen. Darunter steht: "Eine Holzschale mit einer Vielzahl von Gegenständen auf..."
Bild: DBSV/Lisa Mümmler

Wo blinde und sehbehinderte Menschen im ständig digitaler werdenden Alltag auf Barrieren stoßen, öffnet sich durch technische Fortschritte an manch anderer Stelle ein Fenster zur Welt. So können speziell entwickelte Smartphone-Apps durch den Einsatz von Künstlicher Intelligenz (KI) visuelle Informationen hör- und erfahrbar machen. Zwei dieser Anwendungen werden im Folgenden vorgestellt.

Seeing AI: Sprechende Kamera hilft im Alltag

Seeing AI, zu Deutsch etwa „Sehende Künstliche Intelligenz“, beschreibt hör- und lesbar Umgebungen, Menschen, Objekte und Texte unmittelbar, während die Kamera darauf gerichtet ist und erleichtert so zahlreiche Alltagssituationen. Die kostenlose App wurde in Zusammenarbeit mit seheingeschränkten Menschen von Microsoft entwickelt und ist für Apple- und Android-Geräte verfügbar.

Wird die Anwendung geöffnet, aktiviert sich die Gerätekamera. Unterhalb des Kamera-Ausschnitts kann der Kanal ausgewählt werden, der verwendet werden soll. Es gibt aktuell die Kanäle „Kurzer Text“, „Dokument“, „Produkt“, „Szene“, „Person“, „Währung“, „Farbe“ und „Handschrift“. Ein weiterer Kanal "Welt" wird gerade getestet und weiterentwickelt. Die Kanalnamen werden beim Antippen vorgelesen, auch wenn keine Sprachausgabe aktiviert ist. Längeres Gedrückthalten zeigt den Text groß in der Bildschirmmitte.

Was verbirgt sich hinter diesen Kanälen? Text wird automatisch vorgelesen, sobald er vor die Kamera gehalten wird. Handschriften können erkannt und wiedergegeben werden, beispielsweise auf Grußkarten. Produkte lassen sich identifizieren, indem Barcodes oder QR-Codes gescannt werden – Seeing AI nennt den Produktnamen und weitere Herstellerangaben.  Geldscheine verschiedener Währungen sowie Farben kann die App benennen. In manchen Situationen hilfreich kann auch die Darstellung der Umgebungshelligkeit durch einen akustischen Ton sein – beispielsweise, um Ausgänge von Unterführungen zu identifizieren.

Im Kanal „Person“ können Menschen erkannt werden und Nutzerinnen und Nutzer erhalten Informationen über die Entfernung zu diesen Personen und eine Schätzung zu Alter und Geschlecht. Bekannte Menschen können gespeichert werden, sodass die KI die dazugehörigen Namen nennt.

Drei Arten, sich Bilder beschreiben zu lassen

Seeing AI beschreibt

  • auf dem Gerät gespeicherte Bilder,
  • direkt in der Seeing-AI-App geschossene Bilder und
  • ungespeicherte Bilder in anderen geöffneten Anwendungen.

Auf dem Gerät gespeicherte Bilder und Videos

Über den Menüpunkt „Fotos durchsuchen“ können auf dem Gerät gespeicherte Bilder ausgewählt werden. Diese werden detailliert erklärt, der beschreibende Text erscheint dabei lesbar auf dem Bildschirm und wird zusätzlich vorgelesen. Auch Videos können analysiert werden. So können Nutzende selbstbestimmt ihre Bildergalerie verwalten.

In der Seeing-AI-App geschossene Bilder

Über den Kanal „Szene“ wird ein direkt gemachtes Umgebungsbild umfangreich beschrieben. Mit „Foto untersuchen“ kann mit dem Finger auf einzelne Bereiche des Bildes getippt werden, es erfolgt eine haptische Reaktion (leichtes Vibrieren) und eine kurze Benennung, sobald über ein Element gestrichen wird wie "blauer Sessel", "liegende Katze" und "ein paar Wanderschuhe". So lässt sich eine fremde Umgebung erkunden, zum Beispiel können Tische, Stühle oder Hindernisse in einem Raum identifiziert werden.

Ungespeicherte Bilder aus anderen Quellen

Viele sehbehinderte und blinde Menschen kennen die Situation, ein Foto ohne Bildbeschreibung per E-Mail, via Social Media oder über WhatsApp zugeschickt zu bekommen. Über „Teilen“ lässt sich der Befehl „Mit Seeing AI erkennen“ auswählen. Die Beschreibung erfolgt direkt im Kontext beispielsweise der WhatsApp-Unterhaltung, ohne dass das Bild zuerst gespeichert werden muss.

Die App wird kontinuierlich weiterentwickelt, basierend auf Rückmeldungen der Nutzenden und technologischen Fortschritten im Bereich der Künstlichen Intelligenz.

Seeing-AI: "Eine Hand hält ein Smartphone und nimmt ein Bild eines Raumes auf. Auf dem Bildschirm wird das Bild eines Hundes angezeigt, der auf einem Teppich sitzt. Der Hund sitzt vor einem grauen Sofa, das mit mehreren Kissen geschmückt ist."

Live-Unterstützung per Videoanruf mit Be My Eyes

Unterstützung in Alltagssituationen bietet auch die App "Be My Eyes" (Deutsch: Sei meine Augen), die ebenfalls kostenfrei im App- und Playstore verfügbar ist. Es gibt zwei Hauptfunktionen: Über Videoanrufe unterstützen sehende Freiwillige seheingeschränkte Personen, während die KI visuelle Informationen wie Bilder in Texte umwandelt.

Um die App zu nutzen, muss ein Benutzerkonto erstellt werden – das ist über die E-Mail-Adresse, die Apple-ID, den Google- oder Facebook-Account möglich. Im Anschluss wird die Hauptsprache ausgewählt, später lässt sich in den Einstellungen zusätzlich zur Muttersprache noch eine Zweitsprache festlegen. Um alle Funktionen zu nutzen, muss der Zugriff auf Kamera und Mikrofon erlaubt werden.

Ein Videoanruf mit Freiwilligen aktiviert die Außenkamera des Smartphones. So können die angerufenen  Helferinnen und Helfer Umgebung, Farben oder Produkte beschreiben. Nachfragen können direkt im Dialog gestellt werden. Nach dem Gespräch wird Feedback eingeholt, um den Service zu verbessern. Wer lieber Freunde oder Familienmitglieder um Hilfe bitten möchte, kann dazu eigene Gruppen anlegen, die dann angerufen werden.

Zudem hat Be My Eyes ebenfalls eine KI-gestützte Bildbeschreibungsfunktion, in der anschließend im Chat Detailfragen gestellt werden können.

Weitere Funktionen sind das Dienstverzeichnis und die Gemeinschaftsseite. Das Dienstverzeichnis listet Organisationen und Unternehmen aus Bereichen wie Gesundheit, Technik oder Haushalt. Einige Profile werden von den Anbietern selbst gepflegt, andere von Be My Eyes erstellt. Kontakte können direkt angerufen werden - so beispielsweise auch der DBSV.

Die Gemeinschaftsseite bietet englischsprachige Inhalte wie Blogbeiträge, Stories und Podcasts zum Thema Sehbehinderung.

Die App enthält keine eigene Sprachausgabe. An manchen Stellen kommt es bei groß eingestelltem Text zu Überlappungen, sodass manches visuell nicht gut lesbar ist.

Fazit: Smarte Helfer, nicht ganz ohne Fehler

Es empfiehlt sich, die Apps selbst zu testen und herauszufinden, welche Funktionen individuell nützlich sein können. Zu beachten ist, dass beide Apps nicht fehlerfrei funktionieren und kleine Details abweichen können. So wird manchmal aus einem fotografierten Teppich ein Handtuch oder ein langhaariger Mann als Frau erkannt. Wie gut die Beschreibungen der Umgebung sind, hängt von der Bildqualität und den Lichtverhältnissen ab. Alles in allem erzielen beide Anwendungen gute Ergebnisse, liefern solide Beschreibungen und ermöglichen blinden und sehbehinderten Menschen so ein Stück mehr Eigenständigkeit. Obgleich beide Apps viele Funktionen haben, sind sie simpel aufgebaut und unkompliziert zu bedienen.

Auf dem Markt sind weitere Apps, die die visuelle Welt für blinde und sehbehinderte Menschen zugänglich machen. Auch ChatGPT kann beispielsweise detaillierte Bildbeschreibungen liefern.

Zurück

Weitere Beiträge

Sehend begleiten: So geht es richtig

24.06.2024

Von Techniken, um blinde oder sehbehinderte Personen zu führen und warum dieses Wissen auch für Menschen mit Seheinschränkung wichtig sein kann, berichtet Sichtweisen-Redakteurin Lisa Mümmler.

Mehr zu: Sehend begleiten: So geht es richtig

Format: Audio, Text / Schlagwort: Hilfsmittel, Tipps & Tricks

Zwei Menschen gehen eine Straße entlang. Von oben ist zu erkennen, dass sie etwas versetzt hintereinandergehen. Dabei berührt der hintere Mann den Ellenbogen der vorne gehenden Frau. Beide tragen Jeans und grau/schwarze Oberteile.