
0€ vs. 200€ KI: Codex vs. Claude vs. lokales Gratis-Modell im Livetest
Wer sich gerade mit KI für den eigenen Betrieb beschäftigt, wird im Internet förmlich erschlagen. Jeden zweiten Tag gibt es angeblich ein neues bestes Modell. Hier gewinnt Claude irgendwelche Benchmarks, dort ist ChatGPT plötzlich wieder vorne, und irgendwo dazwischen erklärt jemand, warum man jetzt sofort das nächste Tool abonnieren muss.
Ich halte das in vielen Fällen für den falschen Ansatz. Gerade für Handwerksbetriebe, Maschinenbauer, Fertiger und andere Dienstleister im produzierenden Umfeld ist die entscheidende Frage nicht: Welches Modell hat den besten Benchmark? Die viel wichtigere Frage ist: Was soll die KI bei dir konkret tun?
Genau deshalb ist ein einfacher Praxistest oft ehrlicher als zehn YouTube-Rankings. Ich habe drei Modelle mit derselben Aufgabe gegeneinander antreten lassen:
OpenAI Codex für rund 100 Euro im Monat
Anthropic Claude ebenfalls für rund 100 Euro im Monat
Ollama mit Google Gemma 4 lokal auf dem Rechner, also kostenlos
Die Aufgabe war bewusst alltagsnah: Eine Rechnung auslesen und die Inhalte sauber in ein JSON übertragen, damit man die Daten später strukturiert weiterverarbeiten kann. Genau solche Dinge tauchen in Unternehmen ständig auf, etwa wenn Rechnungsdaten automatisiert an ein Buchhaltungstool, ein ERP-System oder einen internen Workflow weitergegeben werden sollen.
Inhaltsverzeichnis
Warum der ganze KI-Hype für viele KMU an der Praxis vorbeigeht
Warum Benchmarks für die meisten Unternehmen überschätzt werden
Fazit: Für 90 Prozent der Aufgaben musst du nicht beim KI-Wettrüsten mitspielen
Warum der ganze KI-Hype für viele KMU an der Praxis vorbeigeht
In der Theorie klingt es natürlich attraktiv, immer das vermeintlich stärkste Modell zu nutzen. In der Praxis ist es oft komplett egal, ob ein Modell auf einem anspruchsvollen Benchmark ein paar Prozentpunkte besser ist als ein anderes.
Warum? Weil die meisten Unternehmen KI nicht dafür einsetzen, hochkomplexe Programmieraufgaben auf Forschungsniveau zu lösen. Sie nutzen KI für Dinge wie:
E-Mails formulieren
PDFs und Rechnungen auslesen
Daten aus Dokumenten extrahieren
Bilder oder Inhalte analysieren
Arbeitsabläufe vorbereiten oder automatisieren
Texte strukturieren oder zusammenfassen
Für solche Standardaufgaben sind die aktuellen Modelle inzwischen alle auf einem sehr hohen Niveau. Der Unterschied zwischen „gut“ und „minimal besser“ ist für den typischen Alltag in einem mittelständischen Betrieb oft gar nicht spürbar.
Das ist genau der Punkt, den viele bei der Tool-Auswahl übersehen. Sie orientieren sich an Marketing, Benchmarks oder Meinungen aus dem Netz, statt zuerst den eigenen Use Case zu definieren.
Der Testaufbau: Eine Rechnung in JSON umwandeln
Der Anwendungsfall war bewusst simpel, aber realistisch. Es lag eine Rechnung vor, in diesem Fall von Manus AI. Die Aufgabe an alle drei Systeme war identisch:
Rechnungsdaten aus dem Dokument extrahieren
Die Daten in eine vorgegebene JSON-Struktur eintragen
Die Informationen so sauber aufbereiten, dass sie maschinell weiterverarbeitet werden können
Genau darin steckt der eigentliche Mehrwert. Ein JSON ist nicht einfach nur „irgendein Ausgabeformat“, sondern eine strukturierte Datenbasis. Wenn du Prozesse automatisieren willst, brauchst du keine schöne Textantwort, sondern verlässliche Variablen. Also zum Beispiel:
Rechnungsnummer
Rechnungsdatum
Fälligkeitsdatum
Währung
Rechnungsersteller
Rechnungsempfänger
Positionen
Steuersätze und Bemessungsgrundlagen
Mit solchen strukturierten Daten kannst du danach weiterarbeiten. Du kannst sie in eine Buchhaltung übergeben, in einem CRM verarbeiten, in einem ERP weiterleiten oder per Automatisierung in Folgeprozesse einspeisen.
Die drei Kandidaten im Überblick
1. OpenAI Codex
Codex lief in diesem Test als bezahltes Modell im Bereich von rund 100 Euro pro Monat. Für mich ist OpenAI aktuell vor allem dann spannend, wenn es um tiefergehende technische Anwendungen geht, also Programmierung, Fehleranalyse und komplexere Projektstrukturen.
2. Anthropic Claude
Claude lag preislich in einem ähnlichen Bereich. Auch dieses Modell ist grundsätzlich stark und war für viele Aufgaben lange eine sehr gute Wahl. Gleichzeitig zeigt sich aber auch hier: Updates ändern Verhalten. Ein Modell, das gestern noch perfekt gepasst hat, kann morgen in deinem konkreten Workflow plötzlich schlechter performen.
3. Ollama mit Google Gemma 4
Hier wird es besonders interessant. Ollama ist die Oberfläche, das eigentliche Modell war in diesem Fall Gemma 4 von Google, lokal auf dem Rechner installiert. Das bedeutet:
keine laufenden Abo-Kosten
keine Datenübertragung an externe Server
vollständige Verarbeitung im lokalen System
Wichtig ist dabei nur, dass man ein multimodales Modell nutzt. Also eines, das nicht nur Text versteht, sondern auch mit PDFs, Bildern oder anderen Dateiinhalten umgehen kann.
Die Ergebnisse: Erstaunlich wenig Abstand
Alle drei Modelle bekamen dieselbe Eingabe. Ziel war eine saubere Extraktion der Rechnungsdaten. Das Ergebnis war ziemlich eindeutig: Für diese Aufgabe lagen alle drei erstaunlich nah beieinander.
Codex
Codex hat die Rechnung sauber ausgelesen und die meisten relevanten Felder korrekt zugeordnet. Rechnungsnummer, Rechnungsdatum, Währung, Aussteller, Empfänger und Positionen wurden strukturiert erfasst.
Interessant war bei der Adresse des Rechnungserstellers ein Detail: Codex hat die Hausnummer separat erkannt und in das passende Feld eingetragen. Das ist ein kleiner, aber sauberer Vorteil bei strukturierter Datenverarbeitung.
Claude
Claude lieferte inhaltlich nahezu dasselbe Ergebnis. Auch hier wurden Rechnungsnummer, Datumsfelder, Positionen und Steuerinformationen sauber extrahiert.
Der Unterschied lag wieder in der Adresslogik: Statt die Hausnummer getrennt auszugeben, wurde sie Teil des Straßenfelds. Das ist nicht grundsätzlich falsch, weil Adressen im Alltag oft genau so notiert werden. Für strikt strukturierte Weiterverarbeitung kann es aber relevant sein.
Lokales Gratis-Modell mit Ollama und Gemma 4
Und jetzt zum spannendsten Teil: Das kostenlose lokale Modell hat sich überraschend gut geschlagen. Die Rechnung wurde nahezu genauso vollständig ausgelesen wie bei den beiden Bezahlmodellen.
Ja, es gab kleine Abweichungen. Bei der Rechnungsnummer fehlte beispielsweise ein Bindestrich. Bei einzelnen Feldern wie der Hausnummer war die Extraktion nicht ganz so sauber getrennt. Aber ganz ehrlich: Für einen kostenlosen lokalen Ansatz ist das Ergebnis mehr als ordentlich.
Mit einer leicht besseren Prompt-Vorgabe oder einer etwas klareren JSON-Struktur wäre hier sehr wahrscheinlich noch mehr drin gewesen.
Was dieser Vergleich wirklich zeigt
Der eigentliche Erkenntnisgewinn liegt nicht darin, dass Modell A minimal besser war als Modell B. Die viel wichtigere Erkenntnis ist:
Für einen Großteil typischer Büro- und Verwaltungsaufgaben in KMU reicht oft schon ein kostenloses oder deutlich günstigeres Modell aus.
Das Wettrüsten der großen Anbieter ist real. Die Benchmarks sind real. Die Fortschritte sind auch real. Aber sie betreffen häufig Aufgaben, die in den meisten mittelständischen Unternehmen noch gar nicht auf dem Tisch liegen.
Wenn du Rechnungen auslesen, E-Mails vorbereiten, Inhalte strukturieren oder einfache Prozessschritte automatisieren willst, musst du nicht automatisch 200 Euro im Monat für mehrere Premium-Abos ausgeben.
Wann ein teures Modell trotzdem sinnvoll ist
Natürlich heißt das nicht, dass Bezahlmodelle überflüssig sind. Ich nutze sie selbst. Der Unterschied liegt nur darin, wann sich der Einsatz wirklich lohnt.
Spannend werden Premium-Modelle vor allem dann, wenn du in Bereiche gehst wie:
komplexes Coding
Fehleranalyse in Projektverzeichnissen
tiefe Systemlogik
anspruchsvolle Automatisierungen
mehrstufige technische Arbeitsprozesse
Genau dort habe ich selbst einen klaren Unterschied gemerkt. Ich habe parallel mit Claude Code gearbeitet und war nach einem Update nicht mehr zufrieden. Das Modell hat zu viel nachgefragt, ist auf denselben Stellen hängengeblieben und kam in einer konkreten Problemstellung nicht mehr weiter.
Dann habe ich das Projektverzeichnis dupliziert, in Codex geladen, den Fehler beschrieben und Codex hat das Problem im ersten Anlauf gefunden und behoben. Das ist ein ganz anderer Use Case als das Auslesen einer Rechnung. Und genau dort kann ein Wechsel zwischen Modellen plötzlich wirtschaftlich sinnvoll werden.
Der Punkt ist also nicht „dieses Modell ist grundsätzlich besser“. Der Punkt ist: Dieses Modell ist für diese spezielle Aufgabe besser.
Warum Benchmarks für die meisten Unternehmen überschätzt werden
Benchmarks klingen objektiv. Und ja, sie haben ihren Wert. Aber für den normalen Einsatz im Betrieb werden sie oft überinterpretiert.
Wenn ein Modell in irgendeinem Testdatensatz für komplexe Logik, mathematische Ableitungen oder Programmierwettbewerbe besser abschneidet, bedeutet das noch lange nicht, dass es für deine Rechnungsverarbeitung, dein CRM oder deine Mailentwürfe spürbar besser ist.
Viele Unterschiede liegen in Bereichen, die nur dann relevant werden, wenn du sehr tief in technische Anwendungen einsteigst. Für den Alltag im Mittelstand gilt oft eher:
Stabilität schlägt Marketing
Passgenauigkeit schlägt Benchmark
Datenschutz schlägt Hype
Use Case schlägt Tool-Name
Der oft unterschätzte Vorteil lokaler Modelle
Gerade im Maschinenbau, in der Fertigung und im Handwerk kommt regelmäßig die Datenschutzfrage auf. Und das zurecht. Nicht jede Rechnung, nicht jedes Kundenprojekt und nicht jedes Dokument sollte ungeprüft in irgendeinen Cloud-Dienst geladen werden.
Ein lokales Modell kann hier ein echter Vorteil sein. Wenn die KI direkt auf deinem Rechner oder in deiner eigenen Umgebung läuft, verlassen die Daten dein System nicht. Das macht die Lösung für viele sensible Anwendungsfälle deutlich interessanter.
Dazu kommt der Kostenaspekt. Wenn ein kostenloses Modell für 80 bis 90 Prozent deiner typischen Aufgaben ausreicht, entsteht sofort ein ganz anderer Business Case. Dann brauchst du Premium-Modelle nur noch punktuell dort, wo der Mehrwert wirklich messbar ist.
So solltest du KI-Tools im Unternehmen auswählen
Wenn du nicht in die typische Tool-Falle laufen willst, geh in dieser Reihenfolge vor:
Definiere zuerst den Anwendungsfall.
Nicht „Wir brauchen KI“, sondern zum Beispiel „Wir wollen Rechnungen automatisiert in unser Buchhaltungssystem übergeben“.Bestimme das gewünschte Ausgabeformat.
Freitext ist nett, strukturierte Daten sind für Prozesse entscheidend.Prüfe, ob Text reicht oder Multimodalität nötig ist.
Sobald PDFs, Bilder oder Scans ins Spiel kommen, muss das Modell damit umgehen können.Teste mehrere Modelle mit exakt derselben Aufgabe.
Nur so bekommst du einen fairen Vergleich.Bewerte nach deinem Prozess, nicht nach Internetmeinungen.
Die Frage ist nicht, was gerade gehypt wird, sondern was in deinem Ablauf funktioniert.Berücksichtige Datenschutz und Betriebskosten.
Gerade lokale Modelle können hier ein starkes Argument sein.
Ein praxisnahes Entscheidungsraster für KMU
Wenn du schnell einschätzen willst, welches KI-Set-up für dich Sinn ergibt, hilft dieses einfache Raster:
Standardaufgaben ohne sensible Daten: Ein günstiges Cloud-Modell reicht oft völlig aus.
Standardaufgaben mit sensiblen Daten: Lokales multimodales Modell prüfen.
Dokumentenverarbeitung und PDF-Analyse: Auf Multimodalität achten.
Komplexe Automatisierung oder Coding: Premium-Modelle gezielt testen.
Unsicherheit bei der Auswahl: Nicht raten, sondern realen Use Case vergleichen.
Genau darum geht es am Ende: erst Aufgabe, dann Tool. Nicht andersherum.
Fazit: Für 90 Prozent der Aufgaben musst du nicht beim KI-Wettrüsten mitspielen
Der Vergleich zwischen Codex, Claude und einem kostenlosen lokalen Modell zeigt sehr deutlich, wie weit die Technik inzwischen ist. Bei einer typischen Business-Aufgabe wie Rechnungsextraktion liegen die Ergebnisse dicht beieinander.
Ja, Premium-Modelle haben ihre Berechtigung. Vor allem dann, wenn du in komplexe technische Anwendungen gehst. Aber für viele Standardprozesse im Mittelstand reicht ein günstiges oder sogar kostenloses Setup vollkommen aus.
Wenn du also gerade überlegst, welches KI-Tool das richtige für deinen Betrieb ist, dann nimm nicht das lauteste Video, den neuesten Hype oder den spannendsten Benchmark als Grundlage. Nimm deinen Prozess als Grundlage.
Wenn du das strukturiert angehen willst, kannst du ein kostenloses Erstgespräch vereinbaren und einen konkreten Anwendungsfall direkt mitbringen. Für Unternehmen, die ihre Prozesse im Maschinenbau, Handwerk oder in der Fertigung sauber aufsetzen wollen, lohnt sich außerdem ein Blick auf die Website von ProMechSys. Und wenn du parallel an CRM- oder Automatisierungsprojekten arbeitest, kann auch der kostenlose Leitfaden eine sinnvolle Ergänzung sein.
Am Ende zählt nicht, welches Modell auf dem Papier gewinnt. Es zählt, welches Modell dir im Alltag Zeit spart, Prozesse vereinfacht und wirtschaftlich sinnvoll ist.
FAQ
Welche KI ist für KMU die beste?
Die beste KI gibt es nicht pauschal. Entscheidend ist der konkrete Anwendungsfall. Für Standardaufgaben wie E-Mails, Rechnungsextraktion oder PDF-Analyse reichen oft günstige oder sogar kostenlose Modelle aus. Für komplexes Coding und tiefere Automatisierungen können Premium-Modelle sinnvoll sein.
Reicht ein kostenloses lokales KI-Modell für die Rechnungsverarbeitung aus?
In vielen Fällen ja. Der Test mit Ollama und Google Gemma 4 hat gezeigt, dass ein kostenloses lokales Modell Rechnungsdaten sehr sauber auslesen und strukturiert in JSON übertragen kann. Kleine Unterschiede gibt es, aber für viele Alltagsprozesse ist das absolut ausreichend.
Was bedeutet multimodales KI-Modell?
Ein multimodales Modell kann nicht nur Text verarbeiten, sondern auch Inhalte aus Bildern, PDFs oder anderen Dateiformaten analysieren. Wenn du Rechnungen, Scans oder Dokumente automatisiert auslesen willst, ist diese Fähigkeit wichtig.
Sind lokale KI-Modelle datenschutzfreundlicher?
Grundsätzlich ja, weil die Daten das eigene System nicht verlassen. Gerade bei sensiblen Unternehmensdaten kann das ein großer Vorteil sein. Natürlich ersetzt das keine allgemeine IT-Sicherheit, aber es reduziert die externe Datenweitergabe deutlich.
Wann lohnt sich der Wechsel von Claude zu Codex oder umgekehrt?
Ein Wechsel lohnt sich dann, wenn dein konkreter Workflow unter dem aktuellen Modell leidet. Das kann zum Beispiel bei komplexen Programmieraufgaben, Fehleranalysen oder Automatisierungen der Fall sein. Für einfache Standardaufgaben ist ein Wechsel häufig nicht notwendig.
Wie sollte ich KI-Tools im Unternehmen testen?
Immer mit einem echten Use Case aus deinem Betrieb. Gib mehreren Modellen dieselbe Aufgabe, mit derselben Eingabe und demselben gewünschten Ausgabeformat. Vergleiche dann nicht nur die Qualität, sondern auch Datenschutz, Geschwindigkeit, Kosten und Anschlussfähigkeit an deine Prozesse.
Schau dir das Video zum Blogthema an 0€ vs. 200€ KI: Codex vs. Claude vs. lokales Gratis-Modell im Livetest.
