DIREKTKONTAKT
Mit dem Absenden dieses Formulars erklären Sie sich mit unserer Datenschutzerklärung einverstanden.

Dipl.-Ing. Jürgen Novotny
fon +49 (0) 2242 915 424
email jn@vivia.de

Was ist ein GAN?

Was ist ein GAN?

  1. vivia
  2. >
  3. KI
  4. >
  5. Was ist ein GAN?

LLMs kennen wir ja in der Regel, wobei LLMs und GANs beide zur Familie der generativen KI gehören; aber sie sind so verschieden wie Drehbuchautorin und das special effect Team beim Film. Ein Large Language Model (LLM) ist im Kern ein riesiges Transformernetz, das nichts anderes tut, als zu lernen, welches Wort, Zeichen oder Token als nächstes sinnvoll wäre – immer wieder, millionenfach. Es frisst quasi Text in allen Variationen und baut daraus ein Wahrscheinlichkeitsmodell für Sprache: Grammatik, Stil, „Weltwissen“, Untertöne – alles landet in diesem statistischen Bauch. Heraus kommen Dinge wie Chatbots, Übersetzungen, Zusammenfassungen oder Code: überall dort, wo der Output im Prinzip eine Text-Sequenz ist.

GANs (kurz für Generative Adversial Networks) gehen einen ganz anderen Weg. Statt einem einzelnen Netz arbeiten hier zwei Netze gegeneinander: ein Generator, der Bilder, Sounds oder andere Daten fabriziert, und ein Diskriminator, der prüft, ob das „echt“ oder „fake“ ist. Dieses Katz-und-Maus-Spiel führt dazu, dass der Generator immer bessere Fälschungen baut, bis der Diskriminator kaum noch unterscheiden kann, ob das nun ein reales Foto oder ein synthetisches ist. GANs modellieren die Verteilung der Daten eher implizit – sie kennen keine saubere Formel für „so sieht ein echtes Bild aus“, sie lernen einfach, Fakes zu erzeugen, die überzeugend genug sind. Das macht sie perfekt für visuelle und audiovisuelle Aufgaben: fotorealistische Gesichter, Stiltransfer, Deepfakes, Bildverbesserung, synthetische Trainingsdaten für Computer Vision und ähnliches.

Was ist ein GAN? KI im Blick by vivia

Bildprompt für Midjourney: J. Novotny

Während ein LLM also vor allem darauf optimiert ist, semantisch und sprachlich konsistent über viele Tokens hinweg zu schreiben – also „in Bedeutung“ zu denken –, zielen GANs darauf, die Wahrnehmung zu täuschen: Hauptsache, das Ergebnis sieht oder klingt echt, auch wenn es kein „Verständnis“ im sprachlichen Sinn gibt. Praktisch heißt das: Für alles rund um Text, Dialog, Erklären, Codieren und Argumentieren greifst du zu LLMs; wenn du dagegen Bilder, Videos oder Audio künstlich erzeugen oder verfremden willst, sind GANs (neben Diffusion-Modellen) das typische Werkzeug der Wahl.

Wofür nimmt man also GANs heute?

  • Wenn es auf extreme visuelle Qualität und Fotorealismus ankommt (z.B. Gesichter, Stiltransfer, Super‑Resolution).
  • Wenn man schnell viele Bilder braucht (GAN‑Sampling ist schneller als viele Diffusion‑Pipelines).
  • Für synthetische Trainingsdaten (z.B. Medizinbilder), wenn echte Daten knapp oder sensibel sind.

 

Bekannte LLMs sind zum Beispiel GPT‑4/5 von OpenAI, Claude 3 von Anthropic, Googles Gemini‑Modelle, Metas LLaMA‑Reihe und die Open‑Source‑Modelle von Mistral (z.B. Mixtral). Sie alle basieren auf Transformer‑Architekturen und sind auf Text und Code spezialisiert – Chatbots, Assistenten, Übersetzer, Code‑Helfer usw.

Bei GANs gehören StyleGAN und StyleGAN2 (fotorealistische Gesichter, Kunst), BigGAN (hochqualitative Bilder großer Klassen wie ImageNet), CycleGAN und Pix2Pix (Bild‑zu‑Bild‑Übersetzung, z.B. Sommer > Winter, Skizze > Foto) sowie SRGAN (Super‑Resolution, also Hochskalierung von Bildern) zu den Klassikern. Diese Modelle kommen vor allem in Bildsynthese, Stiltransfer, Deepfakes und Bildverbesserung zum Einsatz.

Quellen:

GANs vs. LLMs: What You Need to Know (vast.ai)
Large Language Models (LLMs) vs. generative AI (genAI) (data.world)
10+ Large Language Model Examples & Benchmark (AImultiple)
6 GAN Architectures You Really Should Know (neptune.ai)