Deepseek-R1
Open-Source-Gamechanger oder nur ein weiterer KI-Konkurrent?
Open-Source-Gamechanger oder nur ein weiterer KI-Konkurrent?
Im Januar 2025 hat das chinesische Unternehmen DeepSeek mit der Veröffentlichung von DeepSeek-R1 für Aufsehen gesorgt. Das Besondere an diesem Modell: Die Gewichte sind Open Source und das Modell erreicht dennoch eine Leistungsfähigkeit, die mit proprietären Modellen wie OpenAIs GPT-o1 vergleichbar ist. Darüber hinaus wurde es mit deutlich geringerem Ressourcenaufwand entwickelt und trainiert.
Die Veröffentlichung von Deepseek-R1 hatte unmittelbare Auswirkungen auf den Aktienmarkt. Besonders betroffen war NVIDIA, der führende Hersteller von KI-Chips. Der Börsenwert des Unternehmens brach um 600 Milliarden USD ein, was zeigt, wie groß die Erwartungen an proprietäre KI-Technologien waren – und wie disruptiv leistungsfähige Open-Source-Alternativen sein können. Mittlerweile hat sich der Aktienmarkt teilweise erholt und viele chinesische Aktien haben sogar profitiert.
Das chinesische Unternehmen veröffentlichte nicht nur die Gewichte seiner Modelle, sondern legt auch seine Methoden und Innovationen in einem Paper offen. Deepseek-R1 basiert auf einer Mixture-of-Experts (MoE)-Architektur und verfügt über 671 Milliarden Parameter, was es etwa zehnmal größer macht als bisherige Open-Source-Modelle wie Metas Llama3.2. Trotz der gewaltigen Gesamtzahl sind pro Anfrage lediglich 37 Milliarden Parameter aktiv. Das Modell ermöglicht eine Eingabelänge von bis zu 128.000 Tokens und setzt in jeder Schicht 256 Experten ein. Dabei wird jedes Token parallel von acht separaten Experten verarbeitet, um eine effiziente Inferenz zu gewährleisten (NVIDIA).
Weniger Cache-Belastung durch optimierte Rechenlast.
Verbesserungen in der PTX-Library (NVIDIA CUDA) und 8-Bit-Floating-Point-Einsatz für Speichereffizienz.
DeepSeekR1-Zero nutzt ausschließlich Reinforcement Learning (kein Finetuning), was starke Ergebnisse in mathematischen & Code-Fragen liefert, aber zu Schwächen in allgemeineren Bereichen führen kann.
DeepSeek-R1 integriert sparsames Finetuning, um Benutzerpräferenzen besser zu adressieren und Schwächen auszugleichen.
Wer Deepseek-R1 für Echtzeit-Antworten nutzen möchte, benötigt leistungsfähige Hardware. Laut NVIDIA wird ein KI-Server mit acht H200 GPUs empfohlen (NVIDIA). Die Anschaffungskosten belaufen sich auf rund 320.000 EUR (z.B. DELTA Computer). Für weniger zeitkritische Anwendungen können aber auch günstigere Setups reichen.
DeepSeek-R1 kann auf verschiedene Weise genutzt werden:
Die Anwendung ist in gängigen App-Stores verfügbar und funktioniert ähnlich wie ChatGPT.
Achtung: Die Nutzerdaten werden auf chinesischen Servern gespeichert und unterliegen nicht der EU-DSGVO, was Datenschützer alarmiert.
DeepSeek bietet eine direkte API-Schnittstelle (DeepSeek API), Datenschutzbedenken wie bei der App sollten hier jedoch nicht ausgeschlossen werden.
Hier kann DeepSeek-R1 zumindest ohne chinesische Server genutzt werden, möglicherweise jedoch ebenfalls nicht EU-DSGVO-konform.
Neben dem Hauptmodell hat DeepSeek auch kleinere Versionen veröffentlicht, die sich für den Einsatz auf Personal Computern eignen. Diese umfassen 1,5B, 7B, 14B, 32B und 70B Parameter. Allerdings handelt es sich hierbei nicht um originäre DeepSeek-Modelle, sondern um destillierte Versionen von Llama (Meta) und Qwen (Alibaba).
Wissensdestillation bedeutet, dass ein großes Modell (der sogenannte Lehrer) ein kleineres Modell (den sogenannten Schüler) trainiert. Ziel der Destillation ist es, eine ähnliche Leistung der Schülermodelle mit reduziertem Speicher- und Rechenaufwand zu erreichen.
Ein interner Test mit deepseek-r1:32B (basiert auf Qwen2.5) auf einem MacBook Pro mit M3 Pro-Prozessor und 36 GB RAM ergab insgesamt akzeptable Ergebnisse für das destillierte Modell. Allerdings kam es gelegentlich zu Sprachverwechslungen, bei denen englische Texte mit chinesischen Schriftzeichen vermischt wurden. Besonders bei der Konzeptentwicklung komplexer Problemstellungen, wie der Auswahl geeigneter Datenanalysealgorithmen, erwies sich das transparente Reasoning des Modells als wertvoll. Durch die detaillierte Chain-of-Thought-Darstellung lieferte es nicht nur das Endergebnis, sondern ermöglichte auch tiefere Einblicke in den Lösungsweg, was die Entscheidungsfindung erheblich unterstützte.
Deepseek-R1 erreicht in Reasoning-Benchmarks eine Leistung, die mit OpenAIs o1-1217 vergleichbar ist (The Decoder, DeepSeek).
Die destillierten 32B und 70B-Modelle übertreffen in manchen Benchmarks sogar OpenAIs GPT-o1-mini (The Decoder, DeepSeek).
DeepSeek-R1 unterliegt den Zensurvorgaben der chinesischen Regierung und verweigert Antworten zu politisch sensiblen Themen. Stattdessen liefert das Modell oft ausweichende oder generische Antworten. Auch in selbstgehosteten lokalen Versionen sind diese Einschränkungen schwer zu entfernen.
Technisch erfolgt die Zensur über integrierte Filtermechanismen, die bestimmte Anfragen blockieren. Tests zeigen jedoch, dass diese Schutzmaßnahmen mit Jailbreaking-Techniken umgangen werden können. Auch die destillierten Modelle unterliegen diesen Einschränkungen und sind nicht vollständig zensurfrei.
DeepSeek-R1 ist eine bedeutende Entwicklung in der KI-Welt, auch wenn das Modell bestehende Lösungen nicht übertrifft, sondern vielmehr auf Augenhöhe mit ihnen agiert. Hinsichtlich der Präsentation von Antworten bleibt es hinter den Modellen von OpenAI zurück, die eine benutzerfreundlichere Darstellung bieten. Dieser Nachteil fällt jedoch kaum ins Gewicht, wenn DeepSeek-R1 in Automatisierungsprozessen wie KI-Agenten eingesetzt wird.
Besonders hervorzuheben ist die Open-Source-Lizenz der trainierten Gewichte, die Unternehmen erstmals die Möglichkeit bietet, ein leistungsstarkes KI-Modell selbst zu hosten und zu betreiben. Darüber hinaus könnte DeepSeek-R1 eine kostengünstige Alternative zu proprietären Lösungen darstellen – vorausgesetzt, Datenschutzaspekte werden entsprechend berücksichtigt. Ob das Modell tatsächlich eine ernsthafte Konkurrenz darstellt oder eher ein kurzfristiger Hype bleibt, wird sich in den kommenden Monaten zeigen. Eins steht allerdings fest: DeepSeek bringt vielerlei technische Innovationen in den Bereichen Architektur, Hardware-optimierung und Reasoning und ist somit mehr als nur ein schlechter Klon oder chinesische Propaganda.
Schau gerne bei unseren spannenden Blog Posts zum Thema Data Analytics & AI vorbei.
28.02.2025Open-Source-Gamechanger oder nur ein weiterer KI-Konkurrent?
Weiterlesen22.12.2024Der Blog-Beitrag behandelt Multi-Agentensysteme, die durch Zusammenarbeit komplexe Aufgaben lösen und Prozesse in Bereichen wie Versicherung optimieren.
Weiterlesen19.11.2024Eine Datengetriebene Unternehmenskultur muss strategische Priorität sein, wenn Sie Daten als Wettbewerbsvorteil nutzen wollen. Erfahren sie wie und warum!
Weiterlesen