- المدونة
- الإصدار الرسمي لـ DeepSeek-V4: سياق بمليون توكن، بنية الانتباه الهجينة، و SOTA جديد للنماذج المفتوحة
الإصدار الرسمي لـ DeepSeek-V4: سياق بمليون توكن، بنية الانتباه الهجينة، و SOTA جديد للنماذج المفتوحة

يمثل اليوم الإصدار الرسمي لـ DeepSeek-V4. مع الإصدار الرسمي لـ DeepSeek-V4، أتقن الفريق سياق بمليون توكن. من خلال تقديم بنية الانتباه الهجينة الثورية، يؤسس هذا التحديث لـ SOTA جديد للنماذج المفتوحة.
يكسر الإصدار الرسمي لـ DeepSeek-V4 حاجز الكفاءة. إليك كيف تعيد بنية الانتباه الهجينة و سياق بمليون توكن تعريف SOTA جديد للنماذج المفتوحة.
1. مصفوفة النماذج: مصممة لـ سياق بمليون توكن
يتضمن الإصدار الرسمي لـ DeepSeek-V4 نموذجين يدعمان سياق بمليون توكن:
- DeepSeek-V4-Pro: يتعامل بسهولة مع سياق بمليون توكن.
- DeepSeek-V4-Flash: يجعل سياق بمليون توكن سهل الوصول إليه.
2. اختراق: بنية الانتباه الهجينة
لتحقيق كفاءة قصوى تحت سياق بمليون توكن، يقدم الإصدار الرسمي لـ DeepSeek-V4 بنية الانتباه الهجينة:
- بنية الانتباه الهجينة: تجمع بنية الانتباه الهجينة بين CSA و HCA.
3. الكفاءة المدعومة بـ بنية الانتباه الهجينة

تتطلب معالجة سياق بمليون توكن قوة كبيرة، لكن الإصدار الرسمي لـ DeepSeek-V4 يُظهر تحسيناً مذهلاً:
- بفضل بنية الانتباه الهجينة، يتطلب V4-Pro فقط 27% من الـ FLOPs.
- في نفس إعداد سياق بمليون توكن، يكون KV Cache فقط 10%.
4. المعايير: SOTA جديد للنماذج المفتوحة
تم تدريب الإصدار الرسمي لـ DeepSeek-V4 مسبقاً لتأمين SOTA جديد للنماذج المفتوحة.
- يعيد DeepSeek-V4-Pro-Max تعريف SOTA جديد للنماذج المفتوحة.
- في البرمجة التنافسية، يحتل SOTA جديد للنماذج المفتوحة المرتبة 23 في Codeforces.
- حقق الإصدار الرسمي لـ DeepSeek-V4 نتيجة 120/120 في Putnam-2025.
5. ترقيات لوكلاء الذكاء الاصطناعي

إلى جانب سياق بمليون توكن، يرسخ الإصدار الرسمي لـ DeepSeek-V4 مكانته كـ SOTA جديد للنماذج المفتوحة.
الخاتمة
حوّل الإصدار الرسمي لـ DeepSeek-V4 سياق بمليون توكن إلى حقيقة من خلال بنية الانتباه الهجينة. نحن نشهد SOTA جديد للنماذج المفتوحة.
