LLM in a pocket

KI zieht gerade um. Vom Rechenzentrum auf unsere persönlichen Endgeräte. Dazu braucht es kein neues Gadget, die vorhandene Hardware trägt es und bald wird es Commodity sein.

Die Leistungsfähigkeit von lokalen KI Modellen macht alle paar Wochen einen neuen Sprung. Zuletzt wieder im April.

Letztes Jahr brauchte es noch PC Hardware im fünfstelligen Bereich für halbwegs ordentliche Ergebnisse im Hinblick auf Verarbeitungsgeschwindigkeit und Antwortqualität.

Heute genügt bereits ein Apple Silicon Rechner im niedrigen vierstelligen Bereich für Ergebnisse, die den großen Frontiermodellen nicht mehr weit nachstehen.

LLM in a pocket – KI-Modelle auf dem Endgerät

Moderne Mobiltelefon-Prozessoren besitzen längst eine Rechenleistung, die selbst für Notebooks ausreicht (Macbook Neo) und die Neural Engine der Apple ARM Prozessoren war seit Anbeginn auf hohe KI-Leistung ausgelegt.

Ständig fallende Anforderungen der lokalen Modelle treffen auf eine stetig zunehmende Leistungsfähigkeit aktueller Endgeräte.

Im Schnittpunkt sehen wir lokale Sprachmodelle, die einen Großteil dessen leisten, was wir heute aus den Rechenzentren der großen Anbieter gewohnt sind. So verwundert es wenig, wie sich LLMs bereits jetzt – noch weitgehend unbeachtet – auch lokal ins System vorarbeiten:

Browser LLM

WebLLM ist wegweisend und macht es greifbar: ein Open-Source-Framework das LLMs über WebGPU direkt im Browser-Tab ausführt — ohne Server, ohne Installation, ohne API-Key. Llama, Gemma, Qwen oder Mistral laufen damit bereits heute direkt auf der eigenen Hardware, ohne dass die Daten das Gerät verlassen.

Voraussetzung ist derzeit noch aktuelle Hardware. Ältere Geräte mit knappem Hauptspeicher stoßen schnell an Grenzen. Die Lücke schließt sich aber immer weiter mit jedem neuen Gerätezyklus.

Weit weniger offen ist Googles Weg: Chrome bringt seit Anfang 2026 ein Gemini Nano still im Hintergrund mit. 4 GB Daten, kein Hinweis, ohne Zustimmung. Das Modell treibt bisher nur wenige, spezielle Features an: SCAM-Erkennung, kleinere Texthilfen oder Seitenzusammenfassungen.

Der „AI Mode“-Button, den man in der Adressleiste sieht, schickt weiterhin jeden Aufruf an Googles Server. Ob und wann ein vollständiger Wechsel auf die Endgeräte kommt, hängt wohl nicht allein an der Leistungsfähigkeit der Hardware — sondern auch daran, wer die Kontrolle über Kommunikation mit dem Modell behalten will.

Ob in Offenheit oder über stille Integration. Das LLM wandert bereits auf unsere Endgeräte.

Vom Rechenzentrum ins Endgerät

Die Richtung ist eindeutig. Apples Neural Engine steckt seit dem M1-Chip von 2020 tief in der eigenen Hardware — nicht als Add-On Feature, sondern als grundlegende Architekturentscheidung.

Auch wenn Apple Intelligence immer noch hinter den eigenen Ankündigungen zurückbleibt — die Architekturentscheidung dahinter steht seit 2024 fest: KI läuft zuerst auf dem Endgerät. Nur was dort nicht verarbeitet werden kann, geht in die eigenen Rechenzentren. Sollte auch dort die Leistung nicht ausreichen, dann geht es weiter an den Wunschprovider.

Das Pocket-LLM kommt. Es wandert gerade unbemerkt auf unsere Geräte.

Die Vorteile liegen auf der Hand: Schnell. Immer und überall verfügbar. Kein Login. Kein Abo. Kein Datentourismus durch die USA. Die meisten werden es nicht einmal bemerken, wenn es so weit ist. Der Wechsel wird leise und unmerklich stattfinden.

Vendor Lock-in oder Befreiung?

Für einen Großteil unserer Routineaufgaben — Texte zusammenfassen, Drafts schreiben, Dinge nachschlagen, einfache Analysen — reichen die kleinen lokalen Modelle heute bereits aus. Der Kanal zu den großen Anbietern wird für diese Aufgaben nicht mehr gebraucht. Das ist bereits Realität und keine Zukunft mehr.

Die großen Anbieter werden die direkte Verbindung zum Endnutzer nicht kampflos aufgeben. Langzeitgedächtnis, persönlicher Kontext über Geräte hinweg, Echtzeit-Daten — das wird in der Cloud bleiben. Das Betriebssystem als Torwächter entscheidet, welche Modelle überhaupt laufen dürfen.

Auch wenn das Nutzerinterface nach läuft lokal aussieht: die Cloud bleibt das eigentliche Gehirn dahinter. Chrome macht es bereits vor. Und wer über Formate und Zertifizierung entscheidet, entscheidet welche Modelle als vertrauenswürdig oder kompatibel gelten — und welche nicht.

Wer das Modell kontrolliert, entscheidet am Ende ob „persönlich und lokal“ wirklich persönlich und lokal bedeutet. Oder ob es eine weitere Form von Plattformabhängigkeit ist, die sich nur anders anfühlt.

Das LLM in der Tasche kommt. Die Frage ist nur noch in wessen Tasche.

—
entresol.de: From Swiss, with Love — Apertus und digitale Souveränität
entresol.de: OpenClaw: Schock oder Aufbruch?
entresol.de: Welche KI-Dosis verträgt die Welt?
arxiv.org: Apple Intelligence Foundation Language Models
security.apple.com: Private Cloud Compute — A new frontier for AI privacy
developers.googleblog.com: Gemma 4 — Agentic Skills on the Edge