Wie eine achtsame Herangehensweise an KI verzerrte Datensätze reduziert

Voreingenommene Datensätze und ethische KI

KI-gestützte Lösungen benötigen Datensätze, um effektiv zu sein. Und die Erstellung dieser Datensätze ist auf systematischer Ebene mit einem impliziten Bias-Problem behaftet. Alle Menschen leiden unter Vorurteilen (sowohl bewusst als auch unbewusst). Die Vorurteile können verschiedene Formen annehmen: geografische, sprachliche, sozioökonomische, sexistische und rassistische. Und diese systematischen Verzerrungen werden in Daten eingebrannt, was zu KI-Produkten führen kann, die Verzerrungen aufrechterhalten und verstärken. Unternehmen benötigen einen achtsamen Ansatz, um Verzerrungen zu vermeiden, die sich in Datensätze einschleichen.

Beispiele, die das Bias-Problem veranschaulichen

Ein bemerkenswertes Beispiel für diese Datensatzverzerrung, die damals viel negative Presse auf sich zog, war eine Lösung zum Lesen von Lebensläufen, bei der männliche Kandidaten gegenüber weiblichen bevorzugt wurden. Dies liegt daran, dass die Datensätze des Rekrutierungstools mit Lebensläufen aus dem letzten Jahrzehnt entwickelt wurden, als die Mehrheit der Bewerber männlich war. Die Daten waren verzerrt und die Ergebnisse spiegelten diese Verzerrung wider. 

Ein weiteres weit verbreitetes Beispiel: Auf der jährlichen Google I/O-Entwicklerkonferenz hat Google eine Vorschau auf ein KI-gestütztes Dermatologie-Hilfstool veröffentlicht, das Menschen hilft zu verstehen, was mit Problemen im Zusammenhang mit Haut, Haaren und Nägeln los ist. Der Dermatologieassistent unterstreicht, wie sich die KI weiterentwickelt, um das Gesundheitswesen zu unterstützen – aber er hob auch das Potenzial hervor, dass sich Bias in die KI einschleichen können, nachdem kritisiert wurde, dass das Tool für farbige Menschen nicht geeignet ist.

Als Google das Tool ankündigte, stellte das Unternehmen fest:

Um sicherzustellen, dass wir für alle bauen, berücksichtigt unser Modell Faktoren wie Alter, Geschlecht, Rasse und Hauttyp – von blasser Haut, die nicht bräunt, bis hin zu brauner Haut, die selten brennt.

Google, Verwenden von KI, um Antworten auf häufige Hauterkrankungen zu finden

In einem Artikel in Vice heißt es jedoch, dass Google keinen umfassenden Datensatz verwendet hat:

Um die Aufgabe zu erfüllen, verwendeten die Forscher einen Trainingsdatensatz mit 64,837 Bildern von 12,399 Patienten in zwei Bundesstaaten. Aber von den Tausenden von abgebildeten Hauterkrankungen stammten nur 3.5 Prozent von Patienten mit den Fitzpatrick-Hauttypen V und VI – denen, die braune Haut bzw. dunkelbraune oder schwarze Haut repräsentieren. Laut der Studie bestand die Datenbank zu 90 Prozent aus Menschen mit heller Haut, dunklerer weißer Haut oder hellbrauner Haut. Als Ergebnis der verzerrten Probenahme sagen Dermatologen, dass die App am Ende dazu führen könnte, dass Menschen, die nicht weiß sind, über- oder unterdiagnostiziert werden.

Vice, Googles neue Dermatologie-App wurde nicht für Menschen mit dunklerer Haut entwickelt

Google antwortete, dass es das Tool verfeinern würde, bevor es offiziell veröffentlicht wird:

Unser KI-gestütztes Dermatologie-Hilfstool ist das Ergebnis von mehr als drei Jahren Forschung. Seit unsere Arbeit in Nature Medicine vorgestellt wurde, haben wir unsere Technologie durch die Einbeziehung zusätzlicher Datensätze, die von Tausenden von Menschen gespendete Daten enthalten, und Millionen weiterer kuratierter Bilder von Hautproblemen kontinuierlich weiterentwickelt und verfeinert.

Google, Verwenden von KI, um Antworten auf häufige Hauterkrankungen zu finden

So sehr wir hoffen mögen, dass KI- und maschinelle Lernprogramme diese Verzerrungen korrigieren könnten, die Realität bleibt: Sie sind nur so smart da ihre Datensätze sauber sind. In einem Update zum alten Programmier-Sprichwort Müll rein/Müll raus, KI-Lösungen sind von Anfang an nur so stark wie die Qualität ihrer Datensätze. Ohne eine Korrektur durch Programmierer haben diese Datensätze nicht die Hintergrunderfahrung, um sich selbst zu reparieren – da sie einfach keinen anderen Bezugsrahmen haben.

Der verantwortungsvolle Aufbau von Datensätzen ist der Kern von allem ethische künstliche Intelligenz. Und der Mensch steht im Mittelpunkt der Lösung. 

Achtsame KI ist ethische KI

Voreingenommenheit geschieht nicht in einem Vakuum. Unethische oder verzerrte Datensätze entstehen durch den falschen Ansatz während der Entwicklungsphase. Der Weg, Bias-Fehler zu bekämpfen, besteht darin, einen verantwortungsvollen, menschzentrierten Ansatz zu verfolgen, den viele in der Branche Mindful AI nennen. Achtsame KI hat drei kritische Komponenten:

1. Achtsame KI ist menschzentriert

Von Beginn des KI-Projekts an müssen in der Planungsphase die Bedürfnisse der Menschen im Mittelpunkt jeder Entscheidung stehen. Und damit sind alle Menschen gemeint – nicht nur eine Teilmenge. Aus diesem Grund müssen sich Entwickler auf ein vielfältiges Team globaler Mitarbeiter verlassen, um KI-Anwendungen so zu trainieren, dass sie inklusiv und vorurteilsfrei sind.

Crowdsourcing der Datensätze von einem globalen, diversifizierten Team stellt sicher, dass Verzerrungen frühzeitig erkannt und herausgefiltert werden. Personen unterschiedlicher Ethnien, Altersgruppen, Geschlechter, Bildungsniveaus, sozioökonomischer Hintergründe und Standorte können Datensätze, die einen Wertesatz gegenüber einem anderen bevorzugen, leichter erkennen und so unbeabsichtigte Verzerrungen ausmerzen.

Sehen Sie sich Sprachanwendungen an. Bei der Anwendung eines achtsamen KI-Ansatzes und der Nutzung der Leistungsfähigkeit eines globalen Talentpools können Entwickler linguistische Elemente wie unterschiedliche Dialekte und Akzente in den Datensätzen berücksichtigen.

Die Etablierung eines menschenzentrierten Design-Frameworks von Anfang an ist von entscheidender Bedeutung. Es trägt wesentlich dazu bei, dass die generierten, kuratierten und gekennzeichneten Daten den Erwartungen der Endbenutzer entsprechen. Aber es ist auch wichtig, den Menschen während des gesamten Produktentwicklungslebenszyklus auf dem Laufenden zu halten. 

Human in the Loop kann Maschinen auch dabei unterstützen, ein besseres KI-Erlebnis für jedes spezifische Publikum zu schaffen. Bei Pactera EDGE verstehen unsere global verteilten KI-Datenprojektteams, wie sich unterschiedliche Kulturen und Kontexte auf die Sammlung und Kuratierung zuverlässiger KI-Trainingsdaten auswirken können. Sie verfügen über die notwendigen Tools, um Probleme zu melden, zu überwachen und zu beheben, bevor eine KI-basierte Lösung live geht.

Human-in-the-Loop-KI ist ein Projekt „Sicherheitsnetz“, das die Stärken von Menschen – und ihre vielfältigen Hintergründe – mit der schnellen Rechenleistung von Maschinen verbindet. Diese Zusammenarbeit zwischen Mensch und KI muss von Beginn der Programme an etabliert werden, damit verzerrte Daten keine Grundlage im Projekt bilden. 

2. Achtsame KI ist verantwortlich

Verantwortung zu übernehmen bedeutet, sicherzustellen, dass KI-Systeme frei von Vorurteilen sind und ethisch fundiert sind. Es geht darum, sich bewusst zu machen, wie, warum und wo Daten erstellt werden, wie sie von KI-Systemen synthetisiert werden und wie sie bei Entscheidungen verwendet werden, die ethische Implikationen haben können. Eine Möglichkeit für ein Unternehmen, dies zu tun, besteht darin, mit unterrepräsentierten Gemeinschaften zusammenzuarbeiten, um integrativer und weniger voreingenommen zu sein. Auf dem Gebiet der Datenannotationen zeigen neue Forschungsergebnisse, wie ein Multi-Annotator-Multi-Task-Modell, das die Labels jedes Annotators als separate Teilaufgabe behandelt, dazu beitragen kann, potenzielle Probleme zu mildern, die typischen Ground-Truth-Methoden innewohnen, bei denen Meinungsverschiedenheiten aufgrund von Unterrepräsentationen und können bei der Aggregation von Annotationen zu einer einzigen Ground Truth ignoriert werden. 

3. Vertrauenswürdig

Vertrauenswürdigkeit kommt daher, dass ein Unternehmen transparent und erklärbar ist, wie das KI-Modell trainiert wird, wie es funktioniert und warum es die Ergebnisse empfiehlt. Ein Unternehmen benötigt Fachwissen in der KI-Lokalisierung, um seinen Kunden zu ermöglichen, ihre KI-Anwendungen integrativer und personalisierter zu gestalten und dabei kritische Nuancen der Landessprache und der Benutzererfahrungen zu respektieren, die die Glaubwürdigkeit einer KI-Lösung von einem Land zum nächsten ausmachen oder zerstören können . Beispielsweise sollte ein Unternehmen seine Anwendungen für personalisierte und lokalisierte Kontexte entwickeln, einschließlich Sprachen, Dialekte und Akzente in sprachbasierten Anwendungen. Auf diese Weise bietet eine App in jeder Sprache das gleiche Niveau an Spracherfahrung, von Englisch bis hin zu unterrepräsentierten Sprachen.

Fairness und Vielfalt

Letztendlich stellt eine achtsame KI sicher, dass Lösungen auf fairen und vielfältigen Datensätzen basieren, in denen die Folgen und Auswirkungen bestimmter Ergebnisse überwacht und bewertet werden, bevor die Lösung auf den Markt kommt. Indem wir achtsam sind und den Menschen in jeden Teil der Entwicklung der Lösung einbeziehen, tragen wir dazu bei, dass KI-Modelle sauber, minimal voreingenommen und so ethisch wie möglich bleiben.

Was denken Sie?

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.