OpenAI und Broadcom präsentieren LLM-Inferenz-Chip

OpenAI und Broadcom haben Jalapeño vorgestellt, einen speziell für die Inferenz großer Sprachmodelle (LLMs) entwickelten KI-Chip. Der Chip zielt darauf ab, die Leistung, Effizienz und Skalierbarkeit von KI-Systemen zu verbessern und markiert einen bedeutenden Schritt in Richtung kundenspezifischer Siliziumlösungen für KI-Workloads. Im Gegensatz zu Allzweck-GPUs ist Jalapeño auf die besonderen Anforderungen der LLM-Inferenz optimiert – also die Verarbeitung riesiger Datenmengen mit niedriger Latenz bei gleichzeitig minimalem Energieverbrauch. Die Chip-Architektur konzentriert sich auf die Beschleunigung von Matrixmultiplikationen und Aufmerksamkeitsmechanismen (Attention Mechanisms), die die rechnerischen Grundpfeiler moderner Sprachmodelle sind. Erste Benchmarks deuten darauf hin, dass Jalapeño im Vergleich zu bestehenden Lösungen bis zu 3x schnellere Inferenzgeschwindigkeiten liefern kann, bei einer Reduzierung des Stromverbrauchs um 50 Prozent. Diese Entwicklung ist entscheidend, da KI-Modelle immer größer und komplexer werden. Unternehmen, die Chatbots, Code-Assistenten und Content-Generierungstools einsetzen, brauchen Hardware, die mit den Echtzeitanforderungen Schritt halten kann, ohne dass die Kosten explodieren. Indem OpenAI und Broadcom einen Chip speziell für die Inferenz entwickeln, gehen sie einen Engpass an, der die breite Einführung von LLMs in Produktionsumgebungen bisher eingeschränkt hat. Die Partnerschaft signalisiert auch einen breiteren Trend zur vertikalen Integration in der KI-Branche. Statt sich nur auf Standard-Hardware zu verlassen, investieren führende KI-Unternehmen in kundenspezifische Siliziumlösungen, um sich einen Wettbewerbsvorteil zu verschaffen. Jalapeño soll voraussichtlich Mitte 2025 ausgewählten Cloud-Anbietern zur Verfügung stehen, eine breitere Verfügbarkeit soll später folgen. Für Entwickler und Unternehmen bedeutet das schnellere, günstigere und besser skalierbare KI-Inferenzen – und ebnet den Weg für ambitioniertere Anwendungen.

OpenAI und Broadcom präsentieren LLM-Inferenz-Chip

Verwandte Nachrichten