Während die großen KI-Anbieter mit immer leistungsfähigeren, aber auch ressourcenhungrigeren Modellen um Aufmerksamkeit konkurrieren, vollzieht sich abseits der Schlagzeilen ein leiserer, aber für Unternehmen mindestens ebenso relevanter Trend: Small Language Models, kurz SLMs, werden zunehmend praxistauglich für den Betrieb im eigenen Rechenzentrum. Der Grund liegt in besseren Trainingsmethoden und effizienteren Architekturen, die es erlauben, mit deutlich weniger Parametern eine Leistung zu erzielen, die bislang um ein Vielfaches größeren Modellen vorbehalten war — für Unternehmen, die aus Datenschutz-, Kosten- oder Latenzgründen keine Anfragen an externe Cloud-Anbieter senden wollen oder dürfen, eröffnet das neue Möglichkeiten.
Wo On-Premise-Modelle heute schon überzeugen
Besonders gut schneiden kleine Modelle bei klar umrissenen, wiederkehrenden Aufgaben ab, etwa der Kategorisierung eingehender E-Mails, der Extraktion strukturierter Daten aus Formularen oder der Zusammenfassung interner Berichte — hier liegt die Qualität inzwischen nur noch geringfügig unter der großer Cloud-Modelle, während die Antwortzeiten durch den Wegfall der Netzwerklatenz spürbar kürzer ausfallen. Ein IT-Leiter eines Logistikunternehmens berichtet, dass ein On-Premise-Modell die automatische Klassifizierung von Frachtdokumenten inzwischen genauso zuverlässig erledigt wie zuvor ein deutlich teurerer Cloud-Dienst, bei laut eigener Kalkulation etwa einem Drittel der laufenden Kosten. Anders sieht es bei komplexeren, offen formulierten Aufgaben aus, etwa der freien Recherche über mehrere Themengebiete hinweg, wo der Abstand zu den führenden Cloud-Modellen weiterhin deutlich spürbar bleibt — Experten empfehlen daher einen hybriden Ansatz, bei dem einfache Aufgaben lokal verarbeitet und komplexere Sonderfälle bei Bedarf an ein größeres Cloud-Modell weitergereicht werden.
Hardware-Anforderungen sinken spürbar
Ein weiterer Faktor, der On-Premise-Betrieb attraktiver macht, ist der sinkende Hardware-Bedarf: Modelle, die vor zwei Jahren noch mehrere leistungsstarke Grafikkarten benötigten, laufen dank verbesserter Quantisierungsverfahren inzwischen auf einzelnen Server-GPUs im mittleren Preissegment, für viele mittelständische Unternehmen erstmals eine finanziell realistische Option. Dennoch warnen Fachleute davor, den Betriebsaufwand zu unterschätzen, denn anders als bei einer Cloud-API übernehmen Unternehmen selbst die Verantwortung für Wartung, Sicherheitsupdates und Skalierung — der Trend zu kleineren, effizienteren Modellen macht On-Premise-KI aber für deutlich mehr Unternehmen zu einer echten Option, als das noch vor kurzer Zeit der Fall war.
