Ohne Daten keine KI. Dieser Satz klingt fast trivial, doch er wird im KI-Alltag oft vergessen. Algorithmen lernen aus Beispielen – je mehr und je besser die Daten, desto leistungsfähiger das KI-Modell. Aber Vorsicht: Daten alleine genügen nicht. KI braucht Kontext und Daten: Ohne qualitativ hochwertige Daten bleibt jede KI blind; entscheidend ist, wie Daten interpretiert und genutzt werden. Mit anderen Worten: Daten sind der Treibstoff, aber erst der richtige Kontext fungiert als Zündschlüssel, um daraus brauchbare Intelligenz zu erzeugen.

In diesem Beitrag zeigen wir, warum die Qualität und Herkunft der Daten über den Erfolg von KI-Projekten entscheidet. Außerdem betrachten wir, wie Bias – also Verzerrungen in Daten – KI-Ergebnisse verfälschen kann, und warum Erklärbarkeit (Explainable AI) für Vertrauen und Akzeptanz unabdingbar ist.

Gute Daten, gute KI – Schlechte Daten, schlechte KI

Eine KI ist nur so gut wie ihre Trainingsdaten. Werden falsche, veraltete oder lückenhafte Daten eingespeist, kann kein noch so raffinierter Algorithmus korrekte Schlüsse ziehen. Die Praxis hat gezeigt: Wenn Daten aus dem Kontext gerissen oder fehlerhaft sind, produziert auch die KI Fehler. Übrigens stellt sich auch die Rechtsfrage, welche Daten man nutzen darf: Medienhäuser wie die New York Times gehen bereits juristisch gegen KI-Anbieter vor, die ihre Artikel zum Training verwenden – ein Hinweis darauf, wie wertvoll hochwertige Daten geworden sind[1]. Beispielsweise musste ein Chatbot von Microsoft namens „Tay“ 2016 offline genommen werden, weil er in sozialen Netzwerken mit beleidigenden und rassistischen Aussagen auffiel – er hatte von Nutzern gelernt, die ihn mit toxischen Inhalten gefüttert hatten[2]. Die Lektion daraus: Ohne Filter und Kontext übernimmt KI ungeprüft auch die dunkelsten Facetten ihrer Datenquellen.

Andererseits entfaltet KI ihre Stärken, wenn sie mit umfangreichen, repräsentativen und aktuellen Daten trainiert wird. Ein Modell für Absatzprognosen, das alle relevanten Marktdaten und saisonalen Effekte berücksichtigt, wird verlässlichere Vorhersagen treffen als eines, das nur auf dem letzten Jahr basiert. Wichtig ist auch, den Kontext zu verstehen: Ein Datenmuster kann verschiedene Bedeutungen haben, je nach Umfeld. Daher sollten KI-Systeme – oder die Menschen, die sie nutzen – die Ergebnisse stets im Gesamtkontext betrachten, statt blind dem Zahlenoutput zu vertrauen.

Wenn Vorurteile zum Problem werden: Bias in Trainingsdaten

Daten erzählen immer eine Geschichte – aber manchmal eine einseitige. Ein zentrales Risiko bei KI-Trainingsdaten sind Biases, also Verzerrungen, die bestimmte Gruppen benachteiligen oder falsche Schlüsse begünstigen. KI-Systeme selbst haben keine Ideologie und keine Absicht zu diskriminieren. „Das heißt nicht, dass die Systeme an sich diskriminieren »wollen«, es unterstreicht einfach, dass sie nicht denken können. Sie sind immer nur so gut wie ihre Trainingsdaten und die einprogrammierten ethischen Rahmen“ (KI jetzt!, S.  34). Mit anderen Worten: Wenn das Datenmaterial voreingenommen ist, wird es die KI zwangsläufig widerspiegeln.

Ein bekanntes Beispiel: Ein Unternehmen nutzte eine KI, um Bewerbungen zu filtern, stellte dann aber fest, dass das System Frauen systematisch benachteiligte. Warum? Die KI wurde mit historischen Bewerberdaten trainiert, in denen – bedingt durch frühere Personalentscheidungen – vor allem Männer eingestellt worden waren. Der Algorithmus lernte daraus ungewollt, Männer zu bevorzugen. Häufig diskriminieren KI-Anwendungen eher fahrlässig bestimmte Personengruppen, weil sie schlecht trainiert wurden (KI jetzt!, S.  34). Nicht die KI „wollte“ diskriminieren, sondern die Verzerrung lag in den Daten.

Ein oft zitiertes Beispiel für unbeabsichtigte Diskriminierung durch Technik ist der berüchtigte „rassistische Seifenspender“: Ein automatischer Spender gab nur hellhäutigen Personen Seife aus – bei Menschen mit dunkler Haut blieb er stumm. Der Grund war eine Fehlkalibrierung des Sensors, der auf Hautreflexion reagierte. Hier wurde niemand absichtlich benachteiligt; vielmehr war das System unzureichend auf Vielfalt getestet.

Solche Fälle machen deutlich, wie wichtig Diversität und Sorgfalt bei der Datenaufbereitung sind. Entwickler:innen müssen Datensätze prüfen und bereinigen, um offenkundige Schieflagen zu korrigieren. Zudem empfiehlt es sich, KI-Ergebnisse laufend zu überwachen: Zeigen sich systematische Benachteiligungen oder seltsame Ausreißer, ist menschliches Eingreifen gefragt. Die EU hat im kommenden AI Act (dem EU-Gesetz für Künstliche Intelligenz) strenge Vorgaben festgelegt, um Bias in KI-Systemen zu minimieren. Hochriskante KI-Anwendungen – etwa in der Personalwahl, im Bildungssystem oder der Strafverfolgung – sollen nur zugelassen werden, wenn nachgewiesen ist, dass diskriminierende Effekte weitestgehend ausgeschlossen sind.[3]

Black Box KI? Erklärbarkeit schafft Vertrauen

Nicht nur die Daten, auch die Transparenz einer KI ist entscheidend. Viele KI-Systeme agieren wie Black Boxes: Sie liefern ein Ergebnis, ohne dass man genau nachvollziehen kann, warum. Das ist problematisch, wenn die KI wichtige Entscheidungen trifft, etwa über einen Kredit oder eine medizinische Diagnose. Hier kommt XAI – erklärbare KI ins Spiel: Nachvollziehbarkeit wird zur zentralen Anforderung, damit Entscheidungen von KI-Systemen transparent und vertrauenswürdig bleiben. Nutzer:innen und Betroffene haben ein Recht darauf zu verstehen, wie ein Algorithmus zu seinem Urteil gelangt ist.

Erklärbarkeit bedeutet beispielsweise, dass eine KI die wichtigsten Einflussfaktoren für ihre Prognose benennen kann: „Kredit abgelehnt, weil Einkommen unter Schwelle X und negative Schufa-Einträge“. Solche Info schafft Vertrauen und ermöglicht es, Entscheidungen zu überprüfen. Verschiedene Methoden – von einfachen Entscheidungsbäumen bis hin zu komplexen Explainable-AI-Visualisierungen – helfen dabei, Licht ins Dunkel neuronaler Netze zu bringen. Unternehmen, die KI einsetzen, sollten auf solche Features achten. Die Nachvollziehbarkeit ist übrigens auch ein zentraler Bestandteil des EU AI Act: Anbieter müssen je nach Risikostufe erklären können, wie ihr System funktioniert und auf welcher Datengrundlage.

Context is King: Manipulation erkennen und vermeiden

Selbst mit guten Daten und Erklärbarkeit bleibt eine weitere Herausforderung: KI-Systeme können durch geschickt gewählten Input aus dem Tritt gebracht werden. Moderne Chatbots haben eine faszinierende Fähigkeit, Texte zu generieren – doch sie sind manipulierbar! Ein prominentes Beispiel ist das sogenannte Prompt Injection: Dabei formulieren Nutzer:innen Eingaben so, dass sie die KI dazu verleiten, ihre ursprünglich einprogrammierten Regeln zu umgehen. Plötzlich spuckt der Chatbot geschützte Informationen aus oder erzeugt unerwünschte Inhalte, nur weil der Kontext der Anfrage ihn geschickt in die Irre geführt hat.

Diese Anfälligkeit zeigt, dass KI immer im Kontext ihrer Verwendung betrachtet werden muss. Ein ChatGPT, das im Firmennetz werkelt, sollte beispielsweise nicht unbeaufsichtigt Zugang zu sensiblen Daten haben – jemand könnte ihm via Prompt-Injection-Trick vertrauliche Infos entlocken. Anbieter reagieren auf solche Risiken: Anthropic hat sein neuestes Modell Claude 3 mit verstärkten Sicherheitsmaßnahmen versehen, und OpenAI schult GPT-4o und 5 darauf, systemseitige Anweisungen (die sog. „Guardrails“) nicht zu ignorieren. Doch ein Allheilmittel gibt es nicht: Menschliche Wachsamkeit bleibt wichtig. Die KI liefert Vorschläge – ob diese sinnvoll oder gefahrlos sind, muss im Zweifel ein Mensch beurteilen.

Fazit: Datenqualität, Fairness und Transparenz zahlen sich aus

Wer KI erfolgreich einsetzen will, darf die Grundlagen nicht vernachlässigen. Hochwertige, repräsentative Daten und ein gutes Verständnis des Anwendungskontexts sind das A und O. Die teuerste KI-Plattform nützt nichts, wenn der Datentreibstoff von schlechter Qualität ist oder in die falsche Richtung führt. Genauso essenziell ist es, Bias zu erkennen und zu beseitigen, bevor eine Anwendung live geht – im Zweifelsfall mit vielfältigen Testdaten und Feedbackschleifen. Das stellt besonders KMU vor enorme Voraussetzungen, die bislang kaum oder gar nicht systematisch Daten über ihre Prozesse erfasst haben.

Transparenz und Erklärbarkeit sind keine Kür, sondern Pflicht: Sie schaffen Vertrauen bei Nutzer:innen, Kunden und Behörden. Unternehmen im Mittelstand sollten frühzeitig dafür sorgen, dass ihre KI-Systeme zumindest grundlegende Erklärbarkeitsfunktionen bieten. So lassen sich Entscheidungen intern wie extern besser vermitteln.

Am Ende gilt: Kontext ist der Schlüssel. KI entfaltet ihr Potenzial nur in einem Umfeld, das sie versteht – und das die Menschen verstehen, die mit ihren Ergebnissen arbeiten. Wer Daten und Kontext beherrscht, hat den wichtigsten Schritt getan, um mit KI echten Mehrwert zu schaffen, statt in Datenfallen zu tappen.

Im Buch „KI jetzt!“ werfen Mark Brinkmann und Kai Gondlach einen detaillierten Blick auf die Datenbasis der KI-Revolution. Erfahren Sie, wie Sie Bias vermeiden, Transparenz schaffen und mit der richtigen Datenstrategie den vollen Wert von KI ausschöpfen – jetzt mehr lesen in KI jetzt!.

[1] https://www.theguardian.com/media/2023/dec/27/new-york-times-openai-microsoft-lawsuit

[2] https://www.bbc.com/news/technology-35890188

[3] https://www.europarl.europa.eu/news/en/press-room/20240308IPR19025/economic-coordination-prioritise-investment-and-reform-eu-economies-meps-say