News (CH)

Release: Red Hat AI Inference Server

Red Hat AI Inference Server: KI-Inferenz auf Unternehmensebene beschleunigen

Überblick

Der Red Hat AI Inference Server ist eine moderne Plattform zur effizienten Bereitstellung und Ausführung generativer KI-Modelle in hybriden Cloud-Umgebungen. Basierend auf dem Open-Source-Projekt vLLM und erweitert durch die Übernahme von Neural Magic, ermöglicht Red Hat Unternehmen, KI-Workloads kosteneffizient, flexibel und skalierbar zu betreiben.

Hauptfunktionen

Modellvielfalt: Unterstützt alle gängigen Open-Source-KI-Modelle wie LLaMA, Mistral, Phi, DeepSeek und Googles Gemma. Auch voroptimierte Modelle von Hugging Face können direkt eingesetzt werden.
vLLM-Integration: Red Hat bietet eine gehärtete Distribution von vLLM mit Funktionen wie kontinuierlichem Batching und effizientem Speichermanagement für schnelle und ressourcenschonende Inferenz.
LLM Compressor: Ein integriertes Tool zur Komprimierung großer Sprachmodelle, das die Rechenlast reduziert und gleichzeitig eine hohe Genauigkeit beibehält.
Hybride Cloud-Flexibilität: Der Server kann lokal, in der Cloud oder am Edge betrieben werden und unterstützt eine Vielzahl von KI-Beschleunigern wie NVIDIA- und AMD-GPUs, Intel Gaudi und Google TPUs.
Containerisierte Bereitstellung: Als eigenständiger Container oder integriert in Red Hat Enterprise Linux AI und OpenShift AI verfügbar – ideal für Kubernetes-Umgebungen.
Skalierbares Preismodell: Die Abrechnung erfolgt pro Beschleuniger, was eine flexible Skalierung je nach Hardwareeinsatz ermöglicht.

Strategische Bedeutung

Mit dem AI Inference Server verfolgt Red Hat das Ziel, KI-Infrastruktur zu demokratisieren. Durch softwareseitige Optimierung können Unternehmen ihre bestehenden Hardware-Ressourcen besser nutzen und müssen nicht ständig in neue Systeme investieren. Dies entspricht dem wachsenden Bedarf an produktionsreifen KI-Lösungen, die sich nahtlos in Geschäftsprozesse integrieren lassen.

Der Red Hat AI Inference Server ist sowohl als containerisierte Stand-alone-Lösung als auch als Teil von RHEL AI und Red Hat OpenShift AI verfügbar.

Sie haben Fragen?

Sollten Sie Fragen oder Anregungen haben, stehen wir Ihnen jederzeit gerne unter redhat-de@tdsynnex.com zur Verfügung.

Mail schreiben