الإصدار الرسمي لـ DeepSeek-V4: سياق بمليون توكن، بنية الانتباه الهجينة، و SOTA جديد للنماذج المفتوحة

Fanch AIon 2 months ago

DeepSeek-V4 hybrid attention architecture million context infographic cover

يمثل اليوم الإصدار الرسمي لـ DeepSeek-V4. مع الإصدار الرسمي لـ DeepSeek-V4، أتقن الفريق سياق بمليون توكن. من خلال تقديم بنية الانتباه الهجينة الثورية، يؤسس هذا التحديث لـ SOTA جديد للنماذج المفتوحة.

يكسر الإصدار الرسمي لـ DeepSeek-V4 حاجز الكفاءة. إليك كيف تعيد بنية الانتباه الهجينة و سياق بمليون توكن تعريف SOTA جديد للنماذج المفتوحة.

1. مصفوفة النماذج: مصممة لـ سياق بمليون توكن

يتضمن الإصدار الرسمي لـ DeepSeek-V4 نموذجين يدعمان سياق بمليون توكن:

DeepSeek-V4-Pro: يتعامل بسهولة مع سياق بمليون توكن.
DeepSeek-V4-Flash: يجعل سياق بمليون توكن سهل الوصول إليه.

2. اختراق: بنية الانتباه الهجينة

لتحقيق كفاءة قصوى تحت سياق بمليون توكن، يقدم الإصدار الرسمي لـ DeepSeek-V4 بنية الانتباه الهجينة:

بنية الانتباه الهجينة: تجمع بنية الانتباه الهجينة بين CSA و HCA.

3. الكفاءة المدعومة بـ بنية الانتباه الهجينة

DeepSeek-V4 CSA and HCA efficiency comparison diagram against traditional architecture

تتطلب معالجة سياق بمليون توكن قوة كبيرة، لكن الإصدار الرسمي لـ DeepSeek-V4 يُظهر تحسيناً مذهلاً:

بفضل بنية الانتباه الهجينة، يتطلب V4-Pro فقط 27% من الـ FLOPs.
في نفس إعداد سياق بمليون توكن، يكون KV Cache فقط 10%.

4. المعايير: SOTA جديد للنماذج المفتوحة

تم تدريب الإصدار الرسمي لـ DeepSeek-V4 مسبقاً لتأمين SOTA جديد للنماذج المفتوحة.

يعيد DeepSeek-V4-Pro-Max تعريف SOTA جديد للنماذج المفتوحة.
في البرمجة التنافسية، يحتل SOTA جديد للنماذج المفتوحة المرتبة 23 في Codeforces.
حقق الإصدار الرسمي لـ DeepSeek-V4 نتيجة 120/120 في Putnam-2025.

5. ترقيات لوكلاء الذكاء الاصطناعي

$DeepSeek-V4 agentic AI performance in coding, math, and tool calling$

إلى جانب سياق بمليون توكن، يرسخ الإصدار الرسمي لـ DeepSeek-V4 مكانته كـ SOTA جديد للنماذج المفتوحة.

الخاتمة

حوّل الإصدار الرسمي لـ DeepSeek-V4 سياق بمليون توكن إلى حقيقة من خلال بنية الانتباه الهجينة. نحن نشهد SOTA جديد للنماذج المفتوحة.