KI lokal betreiben – wenn die Daten das Haus nicht verlassen sollen

📢 Die wichtigste KI-Entwicklung der Woche

KI lokal betreiben: Edge Computing für den Mittelstand

In den letzten Ausgaben haben wir darüber gesprochen, wie Sie KI-Tools wie ChatGPT, Claude und Gemini im Arbeitsalltag einsetzen können – und worauf Sie beim Datenschutz achten müssen.

Diese Woche gehen wir einen Schritt weiter. Was wäre, wenn Sie KI nutzen könnten, ohne dass ein einziges Byte Ihr Firmengebäude verlässt? Keine Cloud. Keine US-Server. Keine Diskussion über DSGVO und Auftragsverarbeitung, weil die KI auf Ihrer eigenen Hardware läuft.

Das klingt nach Science-Fiction. Ist es aber gar nicht. Es ist seit einigen Monaten Realität – und es wird gerade für den Mittelstand richtig interessant.

Was ist Edge Computing bei KI?

Im Kern bedeutet es: Das Sprachmodell läuft nicht irgendwo in der Cloud, sondern direkt auf einem Rechner in Ihrem Büro. Ihre Fragen, Ihre Dokumente, Ihre Daten bleiben auf diesem Rechner. Kein Anbieter sieht, was Sie eingeben. Kein Vertrag zur Auftragsverarbeitung nötig. Keine monatlichen Abo-Kosten.

Das ist möglich geworden, weil sich in den letzten zwei Jahren drei Dinge verändert haben.

Erstens sind die offenen KI-Modelle dramatisch besser geworden. Modelle wie Llama (von Meta), Mistral (aus Frankreich) und Phi (von Microsoft) sind kostenlos verfügbar und liefern für viele Alltagsaufgaben Ergebnisse, die an ChatGPT herankommen.

Zweitens sind diese Modelle durch eine Technik namens Quantisierung so komprimiert worden, dass sie auf normaler Hardware laufen. Was vor zwei Jahren einen Server für mehrere Tausend Euro brauchte, läuft heute auf einem Laptop mit 16 GB RAM.

Drittens gibt es jetzt Tools, die die Installation so einfach gemacht haben, dass man kein IT-Spezialist mehr sein muss. Ein Befehl, fünf Minuten – und das Modell läuft.

Warum ist das für den Mittelstand besonders interessant?

Drei Gründe:

Datenschutz ohne Kompromisse. Wenn die KI auf Ihrem eigenen Rechner läuft, gibt es keine Datenschutz-Diskussion. Keine Daten verlassen Ihr Netzwerk. Kein Drittanbieter ist involviert. Für Branchen mit hohen Vertraulichkeitsanforderungen – Anwälte, Steuerberater, Gesundheitswesen, Finanzdienstleister – ist das ein entscheidender Vorteil.

Kosten, die nicht wachsen. ChatGPT Pro kostet 20 Euro pro Nutzer und Monat. Bei 20 Mitarbeitern sind das 4.800 Euro im Jahr. Ein lokales Modell kostet nach der einmaligen Einrichtung nichts pro Anfrage. Keine monatlichen Gebühren, keine nutzungsbasierte Abrechnung. Je intensiver Sie KI nutzen, desto schneller rechnet sich die lokale Variante.

Unabhängigkeit. Kein Anbieter kann Ihnen den Zugang sperren, die Preise erhöhen oder die Nutzungsbedingungen ändern. Das Modell gehört Ihnen. Es läuft auch ohne Internet. Und es ist egal, ob OpenAI morgen seine Preise verdoppelt oder Anthropic seine Geschäftsbedingungen ändert.

Welche Modelle laufen lokal – und wie gut sind sie?

Hier ein ehrlicher Vergleich der wichtigsten lokalen Modelle mit den Cloud-Diensten:

Llama 3.3 (Meta) – Das vielseitigste offene Modell. Stark bei Texten, Zusammenfassungen und allgemeinen Aufgaben. In der 8B-Version läuft es flüssig auf einem Laptop. Die 70B-Version braucht mehr Hardware, liefert aber Ergebnisse nahe an GPT-4.

Mistral (Frankreich) – Besonders gut bei europäischen Sprachen, also auch Deutsch. Kompakt, schnell und für viele Büroaufgaben ausreichend. Interessant für Unternehmen, die Wert auf einen europäischen Anbieter legen.

Phi-4 (Microsoft) – Klein, aber überraschend leistungsfähig. Besonders stark bei logischen Aufgaben und Zusammenfassungen. Läuft auch auf älteren Rechnern mit 8 GB RAM.

Die ehrliche Einschätzung: Lokale Modelle sind für 80 % der typischen Büroaufgaben ausreichend – E-Mails formulieren, Texte zusammenfassen, Recherche-Ergebnisse strukturieren, Standardtexte erstellen. Für komplexe Aufgaben wie lange Code-Generierung, kreative Texte auf höchstem Niveau oder die Analyse sehr umfangreicher Dokumente sind die Cloud-Modelle (GPT-4, Claude) noch überlegen. Der Abstand schrumpft allerdings mit jedem Monat.

Welche Hardware braucht man?

Weniger als Sie denken.

Einstieg (für erste Tests): Ein aktueller Laptop mit 16 GB RAM reicht aus, um Modelle wie Llama 3.2 (8B) oder Phi-4 zu betreiben. Kein zusätzlicher Kauf nötig.

Empfehlung für den Arbeitsalltag: Ein Rechner mit 32 GB RAM und einer dedizierten Grafikkarte (GPU) mit mindestens 8 GB VRAM. Apple-Macs mit M-Chips (M1 bis M4) sind hier besonders effizient, weil sie CPU und GPU gemeinsam nutzen. Kostenpunkt: ab ca. 1.500 Euro.

Für Teams und intensive Nutzung: Ein kleiner Server oder Edge-PC mit 64 GB RAM und einer leistungsstarken GPU. Damit können auch die größeren 70B-Modelle laufen, und mehrere Mitarbeiter können gleichzeitig darauf zugreifen. Kostenpunkt: ab ca. 3.000–5.000 Euro.

Zum Vergleich: 20 ChatGPT-Pro-Lizenzen kosten Sie 4.800 Euro im Jahr. Der Server amortisiert sich also im ersten Jahr.

Für wen lohnt es sich – und für wen noch nicht?

Lohnt sich jetzt:

Unternehmen mit hohen Datenschutzanforderungen (Gesundheit, Recht, Finanzen)
Teams, die KI intensiv nutzen und steigende Abo-Kosten vermeiden wollen
Unternehmen, die unabhängig von einzelnen KI-Anbietern bleiben wollen
IT-affine Mittelständler, die bereits eigene Server betreiben

Lohnt sich noch nicht:

Einzelpersonen, die KI nur gelegentlich nutzen – da reichen die kostenlosen Cloud-Versionen
Unternehmen ohne jegliche IT-Kapazität für die Ersteinrichtung
Wenn Sie die absolute Spitzenleistung der größten Modelle brauchen

Der pragmatische Weg: Starten Sie mit dem Cloud-Tool für den Alltag und testen Sie parallel ein lokales Modell für sensible Aufgaben. So kombinieren Sie das Beste aus beiden Welten.

🛠️ Tool der Woche: Ollama

Was es ist: Ein kostenloses Programm, mit dem Sie KI-Modelle in Minuten auf Ihrem eigenen Rechner installieren und nutzen können. Keine Registrierung, keine API-Keys, keine Konfiguration. Open Source, keine versteckten Kosten.

Warum es für Entscheider relevant ist: Ollama macht lokale KI so einfach wie eine App-Installation. Die Oberfläche funktioniert wie ein Chat – genau wie bei ChatGPT. Nur dass alles lokal läuft. Über 200 verschiedene Modelle stehen zur Auswahl, darunter Llama, Mistral und Phi.

Besonders clever: Ollama stellt eine lokale Schnittstelle bereit, die kompatibel zur OpenAI-API ist. Wenn Sie bereits Tools oder Automatisierungen mit ChatGPT gebaut haben, können Sie diese mit minimalen Anpassungen auf lokale Modelle umstellen.

Wie Sie starten: Die komplette Schritt-für-Schritt-Anleitung finden Sie weiter unten im Fortgeschrittenen-Teil dieser Ausgabe.

💬 Prompt der Woche

Diesen Prompt können Sie sowohl in einem Cloud-Tool als auch in einem lokalen Modell über Ollama nutzen:

❝

Aufgabe: Ich gebe Dir ein internes Dokument. Erstelle daraus eine Zusammenfassung für die Geschäftsleitung. Die Zusammenfassung soll folgende Struktur haben:

Kernaussage in einem Satz
Die drei wichtigsten Erkenntnisse
Empfohlene nächste Schritte
Offene Fragen, die geklärt werden müssen

Schreibe sachlich, prägnant, maximal eine halbe Seite. Keine Floskeln.

Hier ist das Dokument:
[Text einfügen]

Tipp: Genau diese Art von Aufgabe – interne Dokumente zusammenfassen – ist der ideale Anwendungsfall für lokale KI. Das Dokument verlässt nie Ihren Rechner, und das Ergebnis ist sofort verfügbar.

📊 Zahl der Woche

4.800 € – So viel kostet ChatGPT Pro für ein Team von 20 Mitarbeitern im Jahr (20 € × 20 Nutzer × 12 Monate). Ein lokaler Server, der das gleiche Team mit KI versorgt, kostet einmalig 3.000–5.000 € und danach nichts mehr pro Anfrage. Ab dem zweiten Jahr spart das Unternehmen. Ab dem dritten Jahr hat sich die Investition mehrfach amortisiert.

🔬 Für Fortgeschrittene: Ihr erstes lokales Sprachmodell in 30 Minuten

Sie wollen es selbst ausprobieren? Hier ist die Schritt-für-Schritt-Anleitung.

Was Sie brauchen:

Einen Rechner mit mindestens 8 GB RAM (16 GB empfohlen)
Ca. 10 GB freien Speicherplatz
30 Minuten Zeit

Schritt 1 – Ollama installieren
Gehen Sie auf ollama.ai und laden Sie das Installationspaket für Ihr Betriebssystem herunter. Installieren Sie es wie jedes andere Programm. Unter Windows und Mac ist es ein normaler Installer, unter Linux zwei Zeilen im Terminal.

Schritt 2 – Erstes Modell starten
Öffnen Sie das Terminal (Mac/Linux) oder die Eingabeaufforderung (Windows) und tippen Sie:

ollama run llama3.2

Das Modell wird beim ersten Mal heruntergeladen (ca. 4 GB). Danach startet es sofort.

Schritt 3 – Testen
Stellen Sie eine Frage direkt im Terminal. Zum Beispiel: "Fasse mir die wichtigsten Pflichten aus dem EU AI Act für mittelständische Unternehmen zusammen."

Beobachten Sie die Geschwindigkeit und die Qualität. Vergleichen Sie das Ergebnis mit ChatGPT oder Claude.

Schritt 4 – Grafische Oberfläche (optional)
Wenn Sie nicht im Terminal arbeiten wollen, installieren Sie Open WebUI. Das ist eine kostenlose Chat-Oberfläche, die aussieht wie ChatGPT und sich automatisch mit Ollama verbindet. Sie öffnen den Browser, tippen Ihre Frage ein und chatten mit Ihrer lokalen KI.

Schritt 5 – Weitere Modelle testen
Mit ollama run mistral oder ollama run phi4 können Sie weitere Modelle ausprobieren. Jedes Modell hat andere Stärken. Testen Sie, welches für Ihre typischen Aufgaben die besten Ergebnisse liefert.

Empfehlung für den Einstieg:

llama3.2 – Allrounder, gute Deutschkenntnisse
mistral – Kompakt, schnell, stark bei europäischen Sprachen
phi4 – Klein, läuft auch auf älteren Rechnern

Für die Mutigen: Installieren Sie LM Studio (lmstudio.ai) – eine grafische Anwendung, die Ollama ähnelt, aber eine schönere Oberfläche bietet und das Wechseln zwischen Modellen noch einfacher macht. Oder Jan.ai – eine Open-Source-Alternative mit Fokus auf Privatsphäre.

⚡ 3 Links, die sich lohnen

Ollama – lokale KI installieren → ollama.ai
Open WebUI – grafische Oberfläche für lokale KI → openwebui.com
LM Studio – KI-Modelle mit grafischer Oberfläche testen → lmstudio.ai

📨 Kennen Sie jemanden, für den dieser Newsletter nützlich wäre?

Leiten Sie diese Mail einfach weiter – eine Anmeldung dauert 30 Sekunden: ki-chefsache.de

⚠️ Hinweis zum Datenschutz

Wenn Sie KI-Tools wie ChatGPT, Claude oder Gemini nutzen, achten Sie darauf, welche Daten Sie eingeben. Vermeiden Sie personenbezogene Daten (Namen, Adressen, Kontodaten) und vertrauliche Geschäftsinformationen, solange Sie keine unternehmensinterne KI-Richtlinie haben. Viele KI-Anbieter verwenden Eingaben zur Verbesserung ihrer Modelle – prüfen Sie die Datenschutzeinstellungen Ihres Tools und deaktivieren Sie ggf. die Verwendung Ihrer Daten für Trainingszwecke. Im Zweifel: Anonymisieren Sie Daten, bevor Sie sie in eine KI eingeben.

Oder: Betreiben Sie Ihre KI lokal – dann stellt sich die Frage gar nicht erst.

Bis nächsten Donnerstag – dann geht es um: KI in der Kundenkommunikation – von der Anfrage bis zum Angebot.

Fragen oder Themenvorschläge? Antworten Sie einfach auf diese Mail.

Herzliche Grüße,
Mark Langer
KI | Chefsache