Subscribe on LinkedIn

Donnerstag, 2. Januar 2025

DeepSeek gehört nun zu den führenden KI-Modellen

DeepSeek hat sich in kürzester Zeit an die Spitze der KI-Welt katapultiert. Das 2023 in Hangzhou gegründete chinesische Unternehmen beeindruckt mit seinem neuesten Modell, DeepSeek V3, sowohl durch die rasante Entwicklungsgeschwindigkeit als auch durch die außergewöhnlichen Ergebnisse. Besonders bemerkenswert ist die Nutzung von ChatGPT zur Optimierung der Trainingsdaten.



Ein zentraler Faktor für den Kostenvorteil war die Verwendung strukturierter Anfragen bei ChatGPT während der Entwicklungsphase. DeepSeek nutzte öffentlich zugängliche Datensätze, darunter generierte Inhalte von GPT-4, um seine Modelle schneller und günstiger zu trainieren. Diese Methode ermöglichte eine steile Lernkurve und führte dazu, dass das Unternehmen innerhalb von nur zwei Monaten ein konkurrenzfähiges Modell entwickelte – trotz der US-Handelsbeschränkungen, die den Zugang zu modernster Hardware erschwerten.

Mit 671 Milliarden Parametern, von denen 37 Milliarden pro Token aktiv sind, setzt DeepSeek V3 neue Maßstäbe in Effizienz und Leistung. Das Modell wurde mit 14,8 Billionen qualitativ hochwertigen Daten trainiert und benötigte dafür lediglich 2,788 Millionen GPU-Stunden – ein Meilenstein, der durch eine innovative Kombination aus algorithmischen Ansätzen und hardwareseitiger Optimierung erreicht wurde.


Besonders hervorzuheben ist der Ansatz, strukturierte Anfragen bei ChatGPT einzusetzen, um die Modellentwicklung erheblich zu beschleunigen. Dies reduzierte nicht nur die Entwicklungszeit, sondern auch die Kosten, die mit lediglich 5,576 Millionen USD außergewöhnlich niedrig blieben. Modelle vergleichbarer Größe und Leistung erfordern oft das Zwei- bis Dreifache an Ressourcen.


Die Architektur von DeepSeek V3 basiert auf Multi-Head Latent Attention (MLA) und der DeepSeekMoE-Struktur, die sowohl eine effiziente Verarbeitung als auch kostengünstiges Training ermöglichen. Eine wegweisende Neuerung ist die auxiliary-loss-freie Strategie, die eine gleichmäßige Lastverteilung erreicht, ohne die Modellleistung zu beeinträchtigen. Dies spiegelt sich in beeindruckenden Benchmark-Ergebnissen wider: DeepSeek V3 übertrifft andere Open-Source-Modelle in Bereichen wie mathematisches Denken, Programmierung und sprachübergreifendes Wissen.


Ein weiterer Erfolgsfaktor ist die Multi-Token Prediction, die dem Modell erlaubt, mehrere zukünftige Token simultan vorherzusagen. Dies steigert die Datenverarbeitungseffizienz erheblich. Zusätzlich trägt die Implementierung von FP8-Mixed-Precision-Training dazu bei, den Speicherbedarf und die Berechnungskosten weiter zu senken.


Von besonderer Bedeutung ist die Verbindung von Forschung und praktischer Anwendung: DeepSeek V3 wird nicht nur in der Forschung kontinuierlich verbessert, sondern auch gezielt in praxisnahen Anwendungen eingesetzt. Dieser iterative Ansatz gewährleistet einen fortlaufenden Lernprozess, der sowohl die Anpassungsfähigkeit als auch die Robustheit des Modells stärkt.


Keine Kommentare:

Kommentar veröffentlichen