أخيراً، أطلقت OpenAI نموذجها الرائد o3-mini رداً على نموذج التفكير الصيني DeepSeek R1 في نهاية هذا الأسبوع. تم الإعلان عن سلسلة نماذج o3 في ديسمبر من العام الماضي. لم تُضيع OpenAI أي وقت وأطلقت o3-mini و o3-mini-high للحفاظ على ريادتها في سباق الذكاء الاصطناعي. لذلك، كنا نتساءل عن كل الأشياء التي يتفوق فيها ChatGPT o3-mini على نماذج الذكاء الاصطناعي الأخرى، وقد قمنا باختباره. اختبرنا براعته في البرمجة وناقشنا مختلف المعايير بدقة. على هذا الأساس، دعونا نتعمق في الموضوع.
روابط سريعة
1. أداء برمجي استثنائي
تُشير OpenAI إلى أن نموذج o3-mini يُقدم أداءً برمجيًا استثنائيًا مع الحفاظ على تكلفة منخفضة وسرعة عالية. قبل إصدار o3-mini، كان نموذج Claude 3.5 Sonnet من Anthropic Claude 3.5 Sonnet هو الخيار الأمثل للاستفسارات البرمجية. لكن هذا الوضع يتغير مع إصدار o3-mini، وتحديدًا مع نموذج o3-mini-high المُتاح لمستخدمي ChatGPT Plus و Pro.
قمتُ باختبار نموذج o3-mini-high وطلبت منه إنشاء لعبة ثعبان بلغة Python حيث تتنافس عدة ثعابين ذاتية التشغيل مع بعضها البعض. استغرق النموذج دقيقة و10 ثوانٍ لتوليد كود Python كاملًا دفعة واحدة.
عند تنفيذ الكود، عمل بسلاسة ودون أي مشاكل. كان من الممتع مشاهدة الثعابين وهي تتحرك ذاتيًا بدقة عالية، تمامًا كما يفعل اللاعبون البشر!
حقق نموذج o3-mini-high نتيجة 2,130 على منصة البرمجة التنافسية Codeforces، مما يضعه ضمن أفضل 2500 مبرمج في العالم. بالإضافة إلى ذلك، في معيار SWE-bench Verified الذي يُقيّم القدرة على حل مشاكل البرمجيات الواقعية، حقق o3-mini-high دقة 49.3%، وهي نسبة أعلى من نموذج o1 الأكبر (48.9%).
لذلك، أعتقد أن نموذج o3-mini-high سيُقدم أفضل أداء في مساعدة البرمجة بالذكاء الاصطناعي حتى إصدار نموذج o3 الكامل، والذي يقول سام ألتمان إنه سيصدر في غضون أسابيع قليلة.
2. اطرح مسائل رياضية مُتقدمة
إلى جانب البرمجة، تُعتبر الرياضيات مجالاً آخر يتفوق فيه نموذج o3-mini على نماذج الذكاء الاصطناعي الأخرى. في امتحان الرياضيات الأمريكي المدعو (AIME) لعام 2024، والذي يتضمن أسئلة من نظرية الأعداد، والاحتمالات، والجبر، والهندسة، وما إلى ذلك، حقق نموذج o3-mini-high نسبة نجاح مُذهلة بلغت 87.3%، متجاوزًا بذلك نموذج o1 الكامل.
في اختبار FrontierMath الصارم، الذي يتميز بمسائل رياضية مُعقدة من وضع رياضيين بارزين، وحائزين على ميدالية فيلدز، وأساتذة من جميع أنحاء العالم، حقق نموذج o3-mini-high نسبة 20% بعد ثماني محاولات. حتى في محاولة واحدة، سجل 9.2%، وهي نسبة لا يُستهان بها.
لوضع هذا في السياق، وصف عالم الرياضيات الشهير تيرينس تاو المسائل في اختبار FrontierMath بأنها “صعبة للغاية”. قد يستغرق حلها ساعات وأيامًا، حتى بالنسبة لخبراء الرياضيات. في المقابل، لم تتمكن بدائل ChatGPT الأخرى من تحقيق سوى 2% في هذا الاختبار.
3. خبيرك العلمي بمستوى الدكتوراه
يتفوق نموذج o3-mini-high أيضًا في الإجابة على أسئلة علمية معقدة بمستوى الدكتوراه، متجاوزًا نماذج الذكاء الاصطناعي الأخرى بهامش كبير. يُعتبر GPQA Diamond معيارًا متقدمًا يقيم قدرات نماذج الذكاء الاصطناعي في المجالات العلمية المتخصصة، ويتألف من أسئلة متقدمة في مجالات الأحياء والفيزياء والكيمياء.
في معيار GPQA Diamond، سجل o3-mini-high نتيجةً ملحوظة بلغت 79.7%، متفوقًا على نموذج o1 الأكبر حجمًا (78.0%). للمقارنة، حقق أحدث نموذج تفكير منطقي من جوجل، Gemini 2.0 Flash Thinking (Exp-01-21)، نسبة 73.3%. حتى نموذج Claude 3.5 Sonnet الجديد بلغت نسبته 65% فقط في معيار GPQA Diamond.
هذا يُظهر أن نموذج o3-mini الأصغر حجمًا من OpenAI، عند منحه المزيد من الوقت والقدرة الحسابية للتفكير، يمكنه التفوق على نماذج الذكاء الاصطناعي الأخرى في الإجابة على أسئلة علمية متخصصة.
4. المعرفة العامة
في مجالات المعرفة العامة، من المتوقع ألا يتفوق نموذج o3-mini على النماذج الأكبر حجمًا نظرًا لصغر حجمه وتخصصه في البرمجة والرياضيات والعلوم. ومع ذلك، على الرغم من صغر حجمه، إلا أنه يقترب جدًا من النماذج الأكبر. في معيار MMLU الذي يقيس أداء نماذج الذكاء الاصطناعي عبر مجموعة واسعة من المواضيع، سجل o3-mini-high نسبة 86.9%، بينما حصل نموذج GPT-4o من OpenAI على نسبة 88.7%.
ومع ذلك، من المتوقع أن يتفوق نموذج o3 الكامل القادم بسهولة على جميع نماذج الذكاء الاصطناعي الحالية في مجالات المعرفة العامة. يأتي هذا التوقع بناءً على أداء نموذج o1 الكامل، الذي حقق بالفعل نسبة 92.3% في معيار MMLU. الآن، علينا انتظار نموذج o3 الكامل الذي قد يُشبع المعيار تمامًا.
5. البحث عبر الويب مع نموذج o3-mini
تقتصر معرفة نموذج o3-mini على البيانات المتاحة حتى أكتوبر 2023، وهو ما يُعتبر قديماً نسبياً في الوقت الحالي. ولكن، قامت OpenAI بإضافة دعم البحث عبر الويب لنموذج o3-mini، مما يسمح لنموذج التفكير باستخراج أحدث المعلومات من الويب وإجراء عمليات تفكير متقدمة. يقوم DeepSeek R1 أيضًا بهذا، ولكن لا يوجد نموذج تفكير آخر يتيح لك الوصول إلى الويب لمزيد من التفكير المنطقي. هذا التحديث يُعزز قدرات o3-mini بشكل كبير في التعامل مع المعلومات المُتغيرة باستمرار.
إذن، هذه بعض القدرات المتقدمة لنموذج o3-mini. بينما يمكن لمستخدمي ChatGPT المجاني الوصول إلى o3-mini، يتم ضبط “جهد التفكير” على “متوسط” والذي يستخدم قدرة حوسبة أقل. هذا يعني أن النتائج قد تكون أقل دقة وتفصيلاً مقارنة بالإصدار المدفوع.
لذا، أوصي بالاشتراك في ChatGPT Plus، والذي يكلف 20 دولارًا شهريًا، لفتح نموذج “o3-mini-high” القوي. بالنسبة للمبرمجين المحترفين والباحثين وطلاب العلوم والتكنولوجيا والهندسة والرياضيات، يمكن أن يكون نموذج o3-mini-high مفيدًا للغاية، حيث يوفر قدرات تفكير متقدمة ودقة أعلى في النتائج.