أخيراً نعرف تكلفة تدريب النموذج الصيني المذهل DeepSeek

كيف هزّت DeepSeek صناعة الذكاء الاصطناعي بتكلفة تدريب لا تتجاوز 300 ألف دولار؟
هل تتذكرون عندما أحدثت DeepSeek زلزالاً مؤقتاً في صناعة الذكاء الاصطناعي بإطلاقها نموذجها اللغوي الكبير R1، الذي تم تدريبه بجزء بسيط من الأموال التي كانت تخصصها OpenAI واللاعبين الكبار الآخرين لنماذجهم؟ بفضل ورقة بحثية جديدة نشرها فريق DeepSeek AI في مجلة Nature، أصبحنا نعرف الآن ما استغرقه تدريب DeepSeek 1: 294,000 دولار و512 شريحة من Nvidia H800.
سر التكلفة المنخفضة: التعلم المعزز القائم على التجربة والخطأ
يبدو أن السبب وراء القدرة على الإنفاق الأقل يعود إلى استخدام الفريق لتقنيات التعلم المعزز القائمة على التجربة والخطأ. تحتاج معظم نماذج الذكاء الاصطناعي المكلفة بأداء مهام التفكير إلى التدريب على بيانات وح demonstrations موضحة بواسطة البشر لت”تعلم” كيفية حل مشكلات معينة، وهو أمر مكلف ويستغرق وقتاً طويلاً للتحجيم مع منح النماذج مهام أكثر صعوبة.
اكتشفت DeepSeek أنها يمكن أن تحسن التفكير ومخرجات نموذجها ببساطة عن طريق تحفيزه لأداء عملية تجربة وخطأ حتى يحصل على الإجابة الصحيحة.
تشبيه مثير: طفل يلعب لعبة فيديو
في مقال مصاحب للورقة البحثية، تشرح الأستاذة المساعدة بجامعة كارنيجي ميلون دافني إيبوليتو وطالبة الدكتوراه ييمينغ تشانغ طريقة التعزيز بمقارنتها بطفل يلعب لعبة فيديو: “بينما ينقل الطفل صورته الرمزية عبر عالم اللعبة، يتعلم من خلال التجربة والخطأ أن بعض الإجراءات (مثل جمع العملات الذهبية) تكسب نقاطاً، بينما أخرى (مlike الاصطدام بالأعداء) تعيد نقاطهم إلى الصفر. بطريقة مماثلة، تم منح DeepSeek-R1 درجة عالية عندما أجاب على الأسئلة بشكل صحيح ودرجة منخفضة عندما أعطى إجابات خاطئة.”
تجاوز حدود الطرق التقليدية
أظهرت الأبحاث السابقة أن استخدام نهج التلميح – وهو مطالبة نموذج لغوي كبير (LLM) بتقديم شرح خطوة بخطوة حول كيفية الوصول إلى مخرجاته – يوفر إجابات أكثر دقة. لكن فريق DeepSeek اكتشف طريقة للحصول على إجابات أفضل من خلال التعزيز عن طريق تعيين نظام تسجيل للمخرجات التي أنتجها R1.
هذا يعمل بشكل جيد بشكل خاص مع أسئلة الرياضيات والبرمجة، التي عادة ما يكون لها إجابة صحيحة قابلة للتحقق. باستخدام هذه الطريقة بدلاً من التفكير الموجه بشرياً، تمكن النموذج اللغوي الكبير من الوصول إلى استنتاج صحيح بمفرده بينما كان يسعى إلى تحقيق درجات أعلى.
تحديات وقيود الطريقة الجديدة
بينما تبدو مخرجات هذه الطريقة أكثر دقة، فإنها أيضاً تحجب عملية “التفكير” الخاصة بالآلة بشكل أكبر قليلاً للبشر الذين يحاولون متابعتها. عند الطلب منها إنتاج أثر تفكير لإجابتها، كان النموذج ينتقل أحياناً ذهاباً وإياباً بين الإنجليزية والصينية. كما أنتج تفسيرات بلغت 10,000 كلمة أو أكثر.
كانت الطريقة أيضاً فعالة بشكل خاص للإجابات ذات الإجابات الصحيحة أو الخاطئة الواضحة بدلاً من المطالبات الأكثر دقة أو ذاتية.
شكوك حول العلاقات والتحيزات
بغض النظر عن ذلك، فإن هذه النتائج تمثل نافذة مثيرة للاهتمام حول كيفية تمكن DeepSeek من أن تكون تنافسية بميزانية أصغر. لا تزال الشركة نفسها تواجه الكثير من التشكك المحيط بها بسبب قربها الملحوظ من الحكومة الصينية.
مؤخراً، أظهر الباحثون لصحيفة واشنطن بوست أن نموذج الشركة يرفض إنتاج كود به عيوب أمنية كبيرة عندما يشير المستفهم إلى أنهم يعملون مع مجموعات تعتبر حساسة من قبل الحكومة الصينية. وجد الباحثون أيضاً أن النموذج يخرج كوداً أقل أماناً عندما يُطلب منه إنتاج عمل لصالح التبت أو تايوان أو حركة Falun Gong الدينية أو الدولة الإسلامية.