awards
Brand Eins Bestberater 2025
Great Place To Work
Kununu
🏆 TRUSTEQ ist unter Deutschlands besten Unternehmensberatungen
Lies den Blog-Post
TRUSTEQ | Corporative Excellence

Deepseek-R1

Open-Source-Gamechanger oder nur ein weiterer KI-Konkurrent? 

Ein neuer Player betritt die KI-Bühne 

Im Januar 2025 hat das chinesische Unternehmen DeepSeek mit der Veröffentlichung von DeepSeek-R1 für Aufsehen gesorgt. Das Besondere an diesem Modell: Die Gewichte sind Open Source und das Modell erreicht dennoch eine Leistungsfähigkeit, die mit proprietären Modellen wie OpenAIs GPT-o1 vergleichbar ist. Darüber hinaus wurde es mit deutlich geringerem Ressourcenaufwand entwickelt und trainiert. 

Ein Beben an den Finanzmärkten 

Die Veröffentlichung von Deepseek-R1 hatte unmittelbare Auswirkungen auf den Aktienmarkt. Besonders betroffen war NVIDIA, der führende Hersteller von KI-Chips. Der Börsenwert des Unternehmens brach um 600 Milliarden USD ein, was zeigt, wie groß die Erwartungen an proprietäre KI-Technologien waren – und wie disruptiv leistungsfähige Open-Source-Alternativen sein können. Mittlerweile hat sich der Aktienmarkt teilweise erholt und viele chinesische Aktien haben sogar profitiert. 

Technische Highlights

Das chinesische Unternehmen veröffentlichte nicht nur die Gewichte seiner Modelle, sondern legt auch seine Methoden und Innovationen in einem Paper offen. Deepseek-R1 basiert auf einer Mixture-of-Experts (MoE)-Architektur und verfügt über 671 Milliarden Parameter, was es etwa zehnmal größer macht als bisherige Open-Source-Modelle wie Metas Llama3.2. Trotz der gewaltigen Gesamtzahl sind pro Anfrage lediglich 37 Milliarden Parameter aktiv. Das Modell ermöglicht eine Eingabelänge von bis zu 128.000 Tokens und setzt in jeder Schicht 256 Experten ein. Dabei wird jedes Token parallel von acht separaten Experten verarbeitet, um eine effiziente Inferenz zu gewährleisten (NVIDIA).

Multi-Head-Latent-Attention (MLHA)

Weniger Cache-Belastung durch optimierte Rechenlast. 

Hardware Efficiency

Verbesserungen in der PTX-Library (NVIDIA CUDA) und 8-Bit-Floating-Point-Einsatz für Speichereffizienz.

Post-Training Innovations
  • DeepSeekR1-Zero nutzt ausschließlich Reinforcement Learning (kein Finetuning), was starke Ergebnisse in mathematischen & Code-Fragen liefert, aber zu Schwächen in allgemeineren Bereichen führen kann. 

  • DeepSeek-R1 integriert sparsames Finetuning, um Benutzerpräferenzen besser zu adressieren und Schwächen auszugleichen. 

Hardware-Anforderungen: High-End oder doch erschwinglich? 

Wer Deepseek-R1 für Echtzeit-Antworten nutzen möchte, benötigt leistungsfähige Hardware. Laut NVIDIA wird ein KI-Server mit acht H200 GPUs empfohlen (NVIDIA). Die Anschaffungskosten belaufen sich auf rund 320.000 EUR (z.B. DELTA Computer). Für weniger zeitkritische Anwendungen können aber auch günstigere Setups reichen. 

Nutzungsmöglichkeiten: App, API und Self-Hosting 

DeepSeek-R1 kann auf verschiedene Weise genutzt werden: 

Slide 4-Deep Seek

Kleinere Modelle für den lokalen Einsatz 

Neben dem Hauptmodell hat DeepSeek auch kleinere Versionen veröffentlicht, die sich für den Einsatz auf Personal Computern eignen. Diese umfassen 1,5B, 7B, 14B, 32B und 70B Parameter. Allerdings handelt es sich hierbei nicht um originäre DeepSeek-Modelle, sondern um destillierte Versionen von Llama (Meta) und Qwen (Alibaba). 

Wissensdestillation bedeutet, dass ein großes Modell (der sogenannte Lehrer) ein kleineres Modell (den sogenannten Schüler) trainiert. Ziel der Destillation ist es, eine ähnliche Leistung der Schülermodelle mit reduziertem Speicher- und Rechenaufwand zu erreichen. 

Ein interner Test mit deepseek-r1:32B (basiert auf Qwen2.5) auf einem MacBook Pro mit M3 Pro-Prozessor und 36 GB RAM ergab insgesamt akzeptable Ergebnisse für das destillierte Modell. Allerdings kam es gelegentlich zu Sprachverwechslungen, bei denen englische Texte mit chinesischen Schriftzeichen vermischt wurden. Besonders bei der Konzeptentwicklung komplexer Problemstellungen, wie der Auswahl geeigneter Datenanalysealgorithmen, erwies sich das transparente Reasoning des Modells als wertvoll. Durch die detaillierte Chain-of-Thought-Darstellung lieferte es nicht nur das Endergebnis, sondern ermöglichte auch tiefere Einblicke in den Lösungsweg, was die Entscheidungsfindung erheblich unterstützte. 

Fazit: Ein echter Open-Source-Konkurrent oder überbewertet? 

DeepSeek-R1 ist eine bedeutende Entwicklung in der KI-Welt, auch wenn das Modell bestehende Lösungen nicht übertrifft, sondern vielmehr auf Augenhöhe mit ihnen agiert. Hinsichtlich der Präsentation von Antworten bleibt es hinter den Modellen von OpenAI zurück, die eine benutzerfreundlichere Darstellung bieten. Dieser Nachteil fällt jedoch kaum ins Gewicht, wenn DeepSeek-R1 in Automatisierungsprozessen wie KI-Agenten eingesetzt wird.  

Besonders hervorzuheben ist die Open-Source-Lizenz der trainierten Gewichte, die Unternehmen erstmals die Möglichkeit bietet, ein leistungsstarkes KI-Modell selbst zu hosten und zu betreiben. Darüber hinaus könnte DeepSeek-R1 eine kostengünstige Alternative zu proprietären Lösungen darstellen – vorausgesetzt, Datenschutzaspekte werden entsprechend berücksichtigt. Ob das Modell tatsächlich eine ernsthafte Konkurrenz darstellt oder eher ein kurzfristiger Hype bleibt, wird sich in den kommenden Monaten zeigen. Eins steht allerdings fest: DeepSeek bringt vielerlei technische Innovationen in den Bereichen Architektur, Hardware-optimierung und Reasoning und ist somit mehr als nur ein schlechter Klon oder chinesische Propaganda. 

Interessiert an weiteren Themen?

Schau gerne bei unseren spannenden Blog Posts zum Thema Data Analytics & AI vorbei.

Deepseek-R1: Open-Source-Gamechanger oder nur ein weiterer KI-Konkurrent?

28.02.2025Open-Source-Gamechanger oder nur ein weiterer KI-Konkurrent? 

Weiterlesen
Dr. Lukas Bohnenberger

KI-Multi-Agentensysteme: Die Zukunft der Automatisierung

22.12.2024Der Blog-Beitrag behandelt Multi-Agentensysteme, die durch Zusammenarbeit komplexe Aufgaben lösen und Prozesse in Bereichen wie Versicherung optimieren.

Weiterlesen

Datengetriebene Unternehmenskultur: Steps, Skills und Value

19.11.2024Eine Datengetriebene Unternehmenskultur muss strategische Priorität sein, wenn Sie Daten als Wettbewerbsvorteil nutzen wollen. Erfahren sie wie und warum!

Weiterlesen