Frau Kreer, wo begegnet uns Künstliche Intelligenz im Alltag?
Zum Beispiel bei den großen Internet-Suchmaschinen: Die nutzen allesamt Künstliche Intelligenz, um uns die bestmöglichen Informationen zu liefern. Auch in vielen Filmen wird heute KI eingesetzt, um Effekte zu erzeugen. Ein weiteres Beispiel sind Sprachassistenzsysteme, wie wir sie in unseren Mobilgeräten haben, mit denen wir sprechen und die Informationen für uns suchen. Es gibt viele weitere Bereiche.
Welchen Nutzen haben blinde und sehbehinderte Menschen von KI?
Der größte Nutzen für blinde und sehbehinderte Personen ist, mit KI einen sehr groben Überblick über Dinge zu bekommen, die wir visuell nicht erfassen können. Wenn wir Screenreader nutzen, können wir Bedienoberflächen nur linear navigieren, also jeweils nur ein Element. Erst über die Zeit können wir uns erarbeiten, was es da für Möglichkeiten gibt. Eine KI kann uns diesen Überblick abnehmen. Wir können mit ihr interagieren und direkt das bekommen, was wir möchten.
Sie haben in einem Artikel Ihre Begeisterung darüber geschildert, dass eine KI eine graphische Bedienoberfläche akkurat wiedergegeben hat. Ist das nicht das Mindeste, was wir von einer automatisierten Bildbeschreibung erwarten dürfen?
Ja, das ist wirklich das Mindeste, was wir erwarten können, aber das war bis Anfang des Jahres, als das KI-Sprachmodell GPT-4 herauskam, noch nicht möglich. Denn gerade eine Bedienoberfläche ist unglaublich kompliziert: Es gibt verschiedene Buttons und wechselnde Nachrichten, Dinge sind unterschiedlich gegliedert – all das muss eine Künstliche Intelligenz erst einmal verstehen. Sie braucht ein gewisses Verständnis von der Welt, um passende Beschreibungen und Erkennung zu liefern.
Kann KI auch den Symbolgehalt eines Bildes erfassen, also das, was über das Gezeigte hinausgeht?
Das ist unter Umständen möglich. Auch das ist eine neue Entwicklung dieser sogenannten großen Sprachmodelle. Das Sprachmodell GPT-4 kommt von einer Firma namens OpenAI und ist trainiert auf extrem viele Datensätze, quasi das komplette Wissen der Menschheit, und viele soziale Medienbeiträge, Wikipedia-Artikel, Bücher. Alles Mögliche ist da hineingeflossen, und die KI hat dadurch ein gewisses Weltwissen gewonnen.
Wenn die KI in der Lage ist, beispielsweise eine Bedienoberfläche zu beschreiben und deren Elemente miteinander zu verknüpfen, können diese Beschreibungen auch beeinflusst werden durch Text, den man dem Sprachmodell liefert. Wenn es in einem Text zum Beispiel um ein bestimmtes Medikament geht und dann ein Bild von einer Pille geliefert wird, liegt es nahe, dass das Bild nicht irgendeine Tablette zeigt, sondern das im Text erwähnte Medikament. Das kann in die Beschreibung einfließen. Auch das gab es vorher nicht.
Sie schreiben ebenfalls, dass man mit Hilfe eines Sprachmodells für viele allgemeinverständliche Bilder und Graphiken passende Beschreibungen generieren könne und Sie als blinde Nutzerin eines Screenreaders diesen vielleicht sogar auf Ihre eigenen Wünsche anpassen können. Wie viel IT-Kenntnisse braucht ein Nutzer, eine Nutzerin, um dem eigenen Screenreader das beizubringen?
Das ist grundsätzlich eine Aufgabe für die Screenreader-Firmen, aber solche Technologien zur automatischen Bilderkennung sind zum Beispiel in Apples IOS und Mac-OS seit einigen Jahren vorhanden. Man geht in die Bedienungshilfe-Einstellungen, aktiviert einen Regler und sagt „Ich möchte bitte automatisierte Bildbeschreibung“.
Wenn ein Bild keine Bildbeschreibung hat oder keine sinnvolle, ertönt ein kurzes Geräusch als Hinweis für den User. Dann fängt die Künstliche Intelligenz an zu arbeiten, um zu erkennen, was auf dem Bild ist und gibt eine Beschreibung aus. Das zu kontrollieren, ist die nächste Sache.
Die Sprachmodelle sind in der Lage, auch Anweisungen zu erhalten. Wenn ich auf Social Media bin, könnte ich dem Sprachmodell zum Beispiel sagen: „Gib mir eine Bildbeschreibung, die aus drei Wörtern besteht.“ Ebenso könnte ich sagen: „Gib mir eine maximal ausführliche Beschreibung.“ Das existiert in dieser Form noch nicht, aber ich könnte mir vorstellen, dass das leicht in das eigene System zu integrieren ist. Vielleicht kann man sich auch Profile hinterlegen und die für sich selbst anpassen, mit eigenen Anweisungen an dieses Sprachmodell. Die Möglichkeiten sind unbegrenzt.
Warum verlassen sich manche Unternehmen und öffentliche Stellen auf Künstliche Intelligenz, wenn es um Barrierefreiheit geht?
Nach meiner Erfahrung als Beraterin für digitale Barrierefreiheit liegt das daran, dass es sehr wenig Know-how in den Unternehmen und den Institutionen gibt. Nur wenige Menschen wissen, wie sie Inhalte barrierefrei gestalten müssen. Und dann ist da eine KI mit dem Versprechen: „Gib mir deine Inhalte, ich mache sie für dich barrierefrei.“ Was am Ende herauskommt, wird nicht mehr überprüft, weil man den Unternehmen, die diese Technologien bereitstellen, glaubt, dass es funktionieren wird. Wir sehen das häufig mit sogenannten Accessibility-Overlays-Technologien, die Barrierefreiheit automatisch herstellen sollen. Die dahinterstehenden Firmen sagen, sie benutzen Künstliche Intelligenz, um Dinge per Knopfdruck barrierefrei zu machen, aber in der Realität ist das alles nicht so funktional und erzeugt meistens noch mehr Barrieren.
Was KI kann, lernt sie von Menschen. Das bedeutet, falsche oder diskriminierende Inhalte zu transportieren ist weiterhin möglich. Wie können wir Nutzerinnen und Nutzer uns davor schützen, durch Künstliche Intelligenz nicht genauso manipuliert zu werden wie durch natürliche?
Wir können das gar nicht. Für uns blinde Menschen ist es essenziell, dass alle Informationen akkurat sind, gerade wenn Bilder beschrieben werden. Aus meiner Sicht verlassen wir da den technischen Problembereich, sondern gehen in ein kommunikatives Problem. Wir haben im Deutschen das schöne Sprichwort „Ein Bild sagt mehr als tausend Worte“. In Bildern gibt es so viele Details, die man beschreiben und interpretieren kann.
Nehmen wir mal als Beispiel das Bild eines Hundes auf Social Media: Eine automatische Bildbeschreibung wäre zum Beispiel „Golden Retriever“. Jetzt sind aber im Hintergrund kaputte Spielsachen zu sehen, und der Hund guckt ein bisschen schuldig – das sind Sachen, bei denen ich darauf angewiesen bin, dass mir die Person, die dieses Bild gepostet hat, auch mitteilt, was ich darin sehen soll. Das kann in dem Fall keine andere Person und auch keine Künstliche Intelligenz übernehmen.
Mit KI schaffen wir uns also auch eine Menge unsichtbarer Barrieren, die wir selbst nicht als Barrieren erkennen. Sprachlich könnten Beleidigungen mitgeneriert werden oder Menschen nicht so beschrieben werden, wie sie aussehen oder wie sie sich selbst identifizieren, weil statistische Modelle, auf denen Künstliche Intelligenz basiert, sie anders einordnen. Deswegen sind wir immer darauf angewiesen, dass die Person, die ein Bild veröffentlicht, nach bestem Wissen und Gewissen mitteilt, was das Bild zeigt und aussagen soll.
Birgt KI mehr Chancen oder mehr Gefahren?
Ich würde das aufteilen in mehrere Bereiche. Für mich privat ist das eine absolut großartige Entwicklung, weil sie mir mehr Zugänglichkeit zu verschiedenen Dingen ermöglicht. Wenn wir zum Beispiel dank KI Knöpfe auf Geräten besser zuordnen können, merken wir uns Dinge besser, und es wird angenehmer, Geräte zu benutzen.
Auf der anderen Seite sehe ich es kritisch, weil KI häufig gedankenlos auf bestimmte Probleme angewendet wird, zum Beispiel auf Alternativtexte. Auf Meta-Plattformen wie Facebook gibt es sehr viele automatisiert generierte Bildbeschreibungen. Nicht immer ist erkennbar, dass es sich um einen KI-Alternativtext handelt, sodass ich nicht weiß, ob ich mich auf diese Bildbeschreibung verlassen kann.
Es entstehen auch immer mehr digitalisierte Hörbücher, die von neuartigen Computerstimmen vorgelesen werden, die als Künstliche Intelligenz trainiert wurden. Wir können nun nicht mehr mit hundertprozentiger Sicherheit sagen, dass die Informationen, die gesprochen werden, auch wirklich so in dem Text standen. Wir brauchen immer zusätzlich eine menschliche oder eine vertrauenswürdige Kontrolle, dass tatsächlich das gesagt wird, was im Text steht. Ansonsten könnte es sein, dass wir wieder falsche Informationen bekommen. Das sehe ich als große Gefahr, und da müssen wir wirklich vorsichtig sein.
Kann man die Gefahren, die KI birgt, verhindern?
Nein, mit dem aktuellen Ansatz zumindest kann man sie nicht verhindern. Kein Mensch versteht, was in diesen KI-Modellen vorgeht, das sind irgendwelche Zahlen, die miteinander verknüpft sind und miteinander sprechen, und am Ende kommt irgendetwas heraus. Wir sind noch viele Jahre davon entfernt zu verstehen, welche Schritte die KI unternimmt, um ein bestimmtes Ergebnis zu erzielen. Wahrscheinlich wird das niemals erreicht werden.
Wie können blinde und sehbehinderte Nutzer und auch Organisationen wie der DBSV daran mitwirken, dass KI einen Fortschritt für die Barrierefreiheit bringt?
Wir müssen darauf achten, dass wir Künstliche Intelligenz auf der nutzenden Seite haben, zum Beispiel in den Screenreader integriert. Dann können wir klar erkennen, okay, das ist jetzt künstlich, und das ist tatsächlich von den Personen, die diesen Inhalt gestaltet haben, generiert. Wir brauchen mehr Bildung bezüglich Barrierefreiheit, mehr Hinweise darauf, dass irgendetwas nicht barrierefrei ist, und wir brauchen viele laute Stimmen, die sich gegen KI-Unternehmen aussprechen, die sagen, unser Produkt kann man für Barrierefreiheit einsetzen. Das ist in vielen Fällen nicht gegeben, und da müssen wir als Community viel lauter werden.