Daten sind der Treibstoff der KI – so trivial dieser Satz klingt, so groß ist seine Bedeutung. Viele mittelständische Unternehmen spüren jedoch: Die bestehende Datenstrategie (oft Version 1.0, fokussiert auf klassische BI-Daten) reicht für KI im großen Maßstab nicht aus. Datenstrategie 2.0 bedeutet, neue Wege zu gehen, um genügend und vor allem geeignete Daten für KI-Projekte bereitzustellen. Zwei vielversprechende Hebel stehen dabei im Vordergrund:
- Synthetische Daten: Mit generativer KI können künstliche Daten erzeugt werden – von Bild- und Sensordaten bis zu Texten – um Lücken in realen Datensätzen zu füllen, Datenschutzprobleme zu umgehen oder seltene Fälle abzudecken.
- „Small Models“: Statt immer größerer Allzweck-KI-Modelle (à la GPT-4 mit Hunderten Milliarden Parametern) setzt man vermehrt auf kleinere, spezialisierte Modelle, die gezielt für bestimmte Aufgaben oder Domänen trainiert werden. Diese sind effizienter, brauchen weniger Daten und Rechenpower und lassen sich oft intern betreiben.
Diese beiden Ansätze können Datenengpässe überwinden und KI-Skalierung ermöglichen – und nachhaltiger gestalten. In diesem Artikel erfahren Sie, wie synthetische Daten funktionieren, welche Vorteile und Risiken sie mit sich bringen, und wie Sie Small Models in Ihrer KI-Architektur einsetzen. Wir betrachten aktuelle Trends wie Metas Llama 3.1 (offen verfügbare KI-Modelle bis 405 Milliarden Parameter[1], aber auch in kleineren Varianten) und das NIST Generative AI Profile (Risikoleitfaden für generative KI als Orientierungen für den praktischen Einsatz. [2]
Daten-Dilemma im Mittelstand: Viel vorhanden, wenig nutzbar?
Viele Unternehmen sitzen auf einem Schatz an Daten – und doch reichen diese oft nicht, um leistungsfähige KI-Modelle zu trainieren. Woran liegt das?
- Datenqualität und -zugänglichkeit: Häufig sind vorhandene Daten siloartig verteilt, unvollständig oder nicht in auswertbarer Form. „Genau diese Datenqualität ist in vielen Unternehmen jedoch nicht vorhanden oder liegt in einem System, aus dem diese Daten nur schwer zu extrahieren sind.“ (KI jetzt!, S. 139) – dieses Zitat aus „KI jetzt!“ beschreibt treffend das Problem. Selbst wenn man Daten hätte, sind sie oft nicht analysierbar, weil sie z. B. in Altsystemen „gefangen“ sind oder wichtige Attribute fehlen.
- Datenmenge und Bias: KI-Modelle, v. a. Deep Learning, gieren nach Menge. Für zuverlässige Ergebnisse brauchen Sie große, vielfältige Datensätze. Im Mittelstand sind aber viele Prozesse spezialisiert – entsprechende Datenpunkte kommen selten vor. Beispiel: Eine KI zur Erkennung von Qualitätsmängeln an Produkten – schwere Mängel treten vielleicht nur in 1 % der Fälle auf. Um sie zu lernen, bräuchte das Modell hunderte Beispiele. Im Realbestand gibt es aber vielleicht nur ein Dutzend. Resultat: Das Modell ist unausgewogen (biased) oder erkennt solche seltenen Fälle nicht robust.
- Datenschutz und Regulatorik: Oft dürfen Daten nicht voll genutzt werden. Kunden- oder Patientendaten unterliegen Datenschutz, IoT-Daten ggf. Betriebsratsvereinbarungen etc. Unternehmen stehen dann vor dem Konflikt: KI könnte riesigen Mehrwert aus den Daten ziehen, aber man darf sie nicht frei verwenden oder teilen.
Die traditionelle Antwort war: Mehr echte Daten sammeln (Data Lakes, IoT-Sensorik ausweiten, Data Sharing mit Partnern). Das bleibt wichtig, doch parallel entstehen neue Lösungen: Daten virtuell erzeugen und Modelle effizienter machen, sodass auch kleinere Datenmengen reichen. Hier kommen synthetische Daten und Small Models ins Spiel.
Synthetische Daten – Daten künstlich herstellen, um Lücken zu füllen
Stellen Sie sich vor, Sie könnten beliebig viele zusätzliche Datenpunkte generieren, die statistisch gesehen genauso beschaffen sind wie Ihre echten Daten. Genau das leisten synthetische Daten. Mithilfe generativer KI (daher oft Generative Adversarial Networks, Diffusionsmodelle oder Transformer) erstellt man neue Datensätze, die keine 1:1-Kopien realer Daten sind, aber deren Verteilungen und Muster imitieren.
Beispiel 1: Medizinische Bilder – In einem Krankenhaus gibt es nur 100 MRT-Scans eines seltenen Tumors. Zum Training einer KI zur Tumorerkennung bräuchte man aber Tausende. Lösung: Ein generatives Modell (z. B. GAN) wird darauf trainiert, neue Tumor-Scans zu erzeugen, die realistisch aussehen, aber eben künstlich sind. So kann man den Datensatz erweitern, ohne auf mehr reale Kranke warten zu müssen.
Beispiel 2: Sensordaten im Maschinenbau. Ein Hersteller möchte Ausfälle seiner Maschine per KI vorhersagen. Echte Ausfälle sind sehr selten (Glück für die Kunden, Pech für die KI). Hier kann man auf Simulatoren setzen. Die Maschinenfunktion wird digital simuliert und „künstlich“ mit Fehlerzuständen gespeist. Aus der Simulation gewinnt man synthetische Zeitreihen für „Maschine kurz vor Ausfall“. So lernt die KI diese Muster, ohne dass man echte Ausfälle abwarten muss. (Man spricht hier auch von Digitalen Zwillingen, die reale Prozesse nachbilden.)
Vorteile synthetischer Daten:
- Menge & Vielfalt: Man kann Datensätze beliebig vergrößern und gezielt unterrepräsentierte Fälle boosten (z. B. mehr Daten von seltenen Fehlern oder von Randgruppen in gesellschaftlichen Daten, um Bias zu reduzieren). „Datenverfügbarkeit und Datenqualität; beide haben große Auswirkungen auf die Qualität der KI.“ (KI jetzt!, S. 140) – synthetische Daten erhöhen Verfügbarkeit und können Qualität steigern.
- Datenschutz: Synthetische Daten enthalten keine echten Personen oder vertraulichen Inhalte – ideal, um Datenschutzprobleme zu umgehen. Wenn man z. B. aus echtem Kundendatenbestand ein Modell lernt, das dann synthetische Kundendaten ausspuckt, können diese frei geteilt und genutzt werden, solange sie keine Rückschlüsse auf Individuen zulassen. (Wichtig: Es gibt Techniken, um sicherzustellen, dass keine Originaldaten rekonstruierbar sind – z. B. Differential Privacy.)
- Kosteneffizienz: Anstatt teure Datenerhebungen (Studien, Feldtests) durchzuführen, kann man Daten generieren. Das initiale Training des Generativ-Modells kostet zwar Rechenzeit, aber wenn es einmal gut ist, spuckt es massenhaft Daten aus – quasi zum Nulltarif.
Aber Achtung: Synthetische Daten sind nur so gut wie das generative Modell. Wenn das Modell Fehler oder Bias hat, reproduzieren die synthetischen Daten diese – schlimmstenfalls potenzieren sie sie sogar. Man läuft Gefahr, ein KI-Modell mit von KI erzeugten Daten zu trainieren – eine Feedback-Schleife, die Unsinn verstärken kann, wenn man nicht aufpasst. Das NIST Generative AI Profile (2024) listet Risiken wie Confabulation (frei erfundene Inhalte) oder Harmful Bias als typisch für generative KI. Übertragen auf synthetische Daten heißt das: Sie müssen überprüfen, ob die generierten Daten realistisch und vielfältig genug sind.
NIST-Tipp: Das NIST-Profil empfiehlt umfangreiche Tests und Qualitätskontrollen für generative KI-Ausgaben. Für synthetische Daten sollte man z. B. statistische Vergleiche mit realen Daten machen (Verteilungen, Korrelationen) und Domain-Experten darüber schauen lassen: Wirken die Daten plausibel? Werden etwa keine physikalischen Gesetzmäßigkeiten verletzt?
Dennoch setzen immer mehr Firmen auf diesen Ansatz. Laut Forbes könnten durch die KI-Nutzung bis 2027 weltweit bis zu 6,6 Milliarden m³ Wasser eingespart werden [3] – eine etwas abstrakte Zahl, die aber andeutet: KI (und synthetische Daten als Enabler) kann Effizienz bringen. Google berichtet, dass das Wachstum von KI 2023 seinen Wasserverbrauch um 17 % erhöht hat [4]. Das zeigt: Mehr Datenverarbeitung = mehr Ressourcenverbrauch. Synthetische Daten könnten hier einen Teil kompensieren, indem sie Datengewinn beschleunigen, ohne aufwändige reale Datensammlung (die etwa Experimente, Gerätelaufzeiten etc. erfordert, was Energie/Wasser kostet).
Im Buch „KI jetzt!“ wird angemerkt, dass wir noch am Anfang dieser Möglichkeiten stehen (KI jetzt!, S. 139). Doch die Entwicklung geht schnell: Unternehmen wie Mostly AI oder Synthesia bieten bereits synthetische Datensätze bzw. generierte Inhalte as a Service. Der IEA Energy & AI Report (2025) prognostiziert, dass Rechenzentren zwar ihren Strombedarf bis 2030 verdoppeln wegen KI [5], aber KI zugleich helfen kann, effizienter zu werden (z. B. Stromnetze optimieren). Synthetische Daten tragen zur Effizienz auf Datenebene bei: Weniger echte Testläufe, mehr Simulation – das spart realen Aufwand.
Small Models
In der KI-Schlagzeilenwelt dominieren die Großmodelle: immer größer, immer mehr Parameter. Doch im Unternehmensalltag setzt sich eine andere Erkenntnis durch: Size isn’t everything. Oft genügen deutlich kleinere KI-Modelle, die gezielt trainiert wurden, um eine Aufgabe bestens zu erfüllen – anstatt ein generalistisches Monstermodell, das vieles ein bisschen kann.
Was meint „Small Models“ konkret? Es gibt zwei Aspekte:
- Architektur und Parameteranzahl: Modelle mit überschaubarer Größe, z. B. ein Sprachmodell mit 5 Mrd. Parametern statt 500 Mrd. Solche Modelle lassen sich häufig on-premises betreiben und sind schneller zu trainieren. Beispiel: Llama 3.1 8B – eine 8-Milliarden-Parameter-Variante von Meta’s Llama 3.1. Diese könnte man intern finetunen und laufen lassen, ohne millionenschwere Infrastruktur.
- Spezialisierung: Ein vortrainiertes Basismodell wird auf einen schmalen Anwendungsbereich angepasst – es wird quasi zum „Small Specialist“. Dadurch kann es in diesem Bereich Top-Performance erzielen, obwohl es insgesamt kleiner ist. Oft genügen für Spezialaufgaben wenige Schichten eines neuronalen Netzes, wenn man gutes Transfer Learning nutzt.
Vorteile von Small Models:
- Weniger Datenbedarf: Große Modelle brauchen riesige, breitgefächerte Trainingsdaten. Ein Small Model, das nur E-Mails kategorisieren soll, kann mit einer vergleichsweise kleinen, domain-spezifischen Datenmenge auskommen (vielleicht ein paar tausend Beispiel-E-Mails pro Kategorie).
- Erklärbarkeit und Nachvollziehbarkeit: Kleinere Modelle sind oft leichter zu interpretieren oder zumindest zu debuggen als gigantische Black Boxes. Bei spezialisierten Modellen kann man gezielt Bias prüfen. Große Modelle sind eher unhandlich in dieser Hinsicht – man denke an GPT-4, wo selbst die Entwickler nicht genau wissen, woher eine bestimmte Antwort kommt.
- Performanz & Kosten: Weniger Parameter bedeuten weniger Rechenaufwand: schnellere Inferenz, weniger Serverkosten, geringer Energieverbrauch. Das ist auch ein Nachhaltigkeitsfaktor – die Datenstrategie 2.0 ist idealerweise auch „grüner“. Small Models sind ein Baustein, denn nicht jede Anfrage muss ein großes Modell wecken, das direkt Megawatt zieht.
- Datensouveränität: Unternehmen können Small Models oft on-premises betreiben. Man kann z. B. ein mittelgroßes Sprachmodell auf den eigenen Servern laufen lassen, was bei GPT-4 (nur via API in der Cloud) nicht geht. Gerade in Europa (Stichwort Souveräne KI) ist das attraktiv – keine Abhängigkeit von US-Clouds, Daten verbleiben intern. Nvidia wirbt gezielt mit dem Konzept „Sovereign AI“ und baut mit europäischen Partnern KI-Infrastrukturen, wo Unternehmen ihre eigenen Modelle hosten[6].
Wie kommt man zu Small Models? Oft durch Feintuning eines mittelgroßen Basismodells. Die Data-Science-Community hat mittlerweile viele vorgefertigte Modelle open-source bereitgestellt (siehe Hugging Face-Plattform). Man wählt ein passendes (z. B. „deutsches Textmodell 5B“), konkretisiert es mit den eigenen Daten. Alternativ nutzt man Knowledge Distillation: Ein großes Modell wird verwendet, um ein kleines zu trainieren (das große ist der Lehrer, generiert viele Trainingsbeispiele, das kleine lernt diese nachzuahmen). So bekam man z. B. BERT-Modelle in kleineren „DistilBERT“-Varianten, die fast genauso gut waren, aber 40 % weniger Parameter hatten.
Risiken von Small Models: Natürlich können sie an Grenzen stoßen. Was, wenn das Anwendungsgebiet doch komplexer ist? Ein kleines Modell hat weniger Kapazität, ggf. geringere Genauigkeit. Hier hilft im Zweifel ein hybrider Ansatz: Kleine Modelle für 90 % der Standardfälle, und in schwierigen Fällen ruft man (automatisch) ein größeres Modell oder übergibt an einen Menschen.
Datenstrategie 2.0 im Unternehmen umsetzen
Wie integriert man nun diese neuen Ansätze in die Datenstrategie?
- Bewusstsein & Schulung: Machen Sie Ihrem Daten-/KI-Team klar, dass es neben „mehr echte Daten sammeln“ noch andere Tools gibt. Fördern Sie Wissen über generative Modelle, die synthetische Daten erzeugen können und über Möglichkeiten des Transfer Learning. Vielleicht lohnt ein Workshop zum Thema „Data Augmentation mit KI“.
- Pilotprojekte definieren: Identifizieren Sie Anwendungsfälle, wo Daten knapp sind oder strengen Auflagen unterliegen. Genau dort können synthetische Daten glänzen. Starten Sie einen kontrollierten Versuch: z. B. synthetische Datengenerierung für einen Algorithmus und messen Sie, ob es die Performance verbessert.
- Tool-Auswahl: Entscheiden Sie, ob Sie eigene generative Modelle trainieren oder vorhandene nutzen. Für viele Zwecke gibt es spezialisierte Tools (z. B. GAN-based Synthesizer für Bilder, Language Models für Textdaten oder Tools wie GPT-Driver für Tabellendaten). Gleiches bei Small Models: Evaluieren Sie open-source Basismodelle (z. B. Llama 3.1, GPT-NeoX, Bloom etc.), die Sie verkleinern/feintunen können.
- NIST-Richtlinien berücksichtigen: Das NIST Generative AI Profile (Juli 2024) identifiziert 12 Risiken speziell bei generativer KI – z. B. Halluzination, Privacy-Leaks, Sicherheit (Deepfakes). Ziehen Sie diese in Ihre Strategie ein. Stellen Sie sicher, dass synthetische Daten keine sensiblen Originaldaten preisgeben (Sensitive Information Disclosure vermeiden und dass bei generierten Daten deklariert wird, dass sie künstlich sind (für Transparenz gegenüber Stakeholdern). Für Small Models bedeutet das Profil: Behalten Sie Supply-Chain-Vulnerabilities im Blick – prüfen Sie, ob ein vortrainiertes Modell evtl. „vergiftet“ sein könnte.
- Iterative Verbesserung: Eine Datenstrategie 2.0 ist kein statisches Dokument. Es ist ein lebendiger Prozess. Nutzen Sie initiale Erfolge (z. B. ein Modell, das dank synthetischer Daten deutliche Genauigkeitssteigerung erreicht hat), um Ihren Ansatz zu validieren. Etablieren Sie dann Richtlinien, wann synthetische Daten verwendet werden dürfen/sollen, wer sie erzeugt (z. B. nur Data Scientists mit Freigabe des Datenschutzbeauftragten etc.) und wie Sie Small Models priorisieren (z. B. Regel: Für neue KI-Services erst prüfen, ob ein <10B-Parameter-Modell ausreicht, bevor Größeres eingesetzt wird).
Fazit: Hebel für skalierbare und nachhaltige KI
Die Kombination aus synthetischen Daten und spezialisierten Small Models kann für den Mittelstand ein echter Game Changer sein. Sie überwindet den scheinbaren Widerspruch „Wir haben zu wenig Daten für KI“ auf elegante Weise. Wenn zu wenig Daten – mache mehr (synthetisch). Wenn Modell zu groß – mache es kleiner (spezialisiert). So wird KI-Skalierung möglich, ohne dass wir darauf warten müssen, dass uns die Realität genügend Beispiele liefert.
Zugleich ist dies auch eine Chance für nachhaltigere KI. Weniger Overkill durch Riesenmodelle, gezielterer Ressourceneinsatz. Schließlich muss KI nicht gleich Greenwashing bedeuten, wenn wir klug vorgehen. Eine moderne Datenstrategie achtet auf Effizienz: Warum ein 100-Mrd.-Modell einsetzen, wenn ein 1-Mrd.-Modell reicht – das ist auch ein Beitrag zur Energieersparnis. Jede Einsparung hier zählt, ebenso bei Wasser und CO2.
Natürlich sind synthetische Daten und Small Models kein Allheilmittel. Aber sie sind mächtige Werkzeuge im KI-Baukasten 2025+. Der Mittelstand kann davon enorm profitieren: Endlich die Datenlücke schließen und KI-Projekte skalieren, ohne an Datenmangel zu scheitern. Überlegen Sie, wo in Ihrem Unternehmen diese Hebel ansetzen könnten. Vielleicht bei der Datengenerierung für KI-Tests, vielleicht beim Schutz echter Daten durch synthetische Dummies, vielleicht beim Ersatz eines Cloud-KI-Services durch ein eigenes kleines Modell, um Kosten zu sparen. Die Möglichkeiten sind vielfältig. Die Zukunft gehört denen, die solche innovativen Wege gehen. Statt zu warten, lohnt es sich, Datenstrategie 2.0 jetzt aktiv anzugehen – mit synthetischen Daten und Small Models als Turbo.
Sie möchten tiefer einsteigen in Datenstrategien und KI-Praktiken? Im Buch „KI jetzt!“ widmen die Autoren dem Thema Daten und KI ein eigenes Kapitel. Dort erfahren Sie, wie Sie Daten zum Erfolgsschlüssel für KI machen, und erhalten weitere Beispiele und Zitate für eine zukunftsfähige Datenstrategie.
Sie möchten mehr über diese Themen erfahren? Buchen Sie eine Keynote mit Kai Gondlach zu den gesellschaftlichen, wirtschaftlichen und politischen Auswirkungen von Künstlicher Intelligenz: kaigondlach.de/vortraege/
Sie möchten die nächsten Schritte für Ihr Unternehmen konkret umsetzen? Dann buchen Sie ein Beratungsgespräch zu unseren PROFORE-Leistungen: profore-zukunft.de/kontakt/
[1] https://ai.meta.com/blog/meta-llama-3-1/
[2] https://www.dlapiper.com/en/insights/publications/ai-outlook/2024/nist-releases-its-generative-artificial-intelligence-profile
[3] https://www.forbes.com/sites/cindygordon/2024/02/25/ai-is-accelerating-the-loss-of-our-scarcest-natural-resource-water/
[4] https://www.aquatechtrade.com/news/water-reuse/google-water-stewardship-environmental-report-ai
[5] https://www.iea.org/news/ai-is-set-to-drive-surging-electricity-demand-from-data-centres-while-offering-the-potential-to-transform-how-the-energy-sector-works
[6] https://www.reuters.com/business/media-telecom/nvidias-pitch-sovereign-ai-resonates-with-eu-leaders-2025-06-16/ applewebdata://D8E79223-B021-4D3A-A859-19AF4C9D7CEB
Andere Blogbeiträge
10/12/2025
Der etwas andere Jahresrückblick 2025
20/11/2025
Keynote beim IONOS Summit 2025
28/10/2025
Wem gehört die Zukunft der KI?
13/10/2025









