עוד יום, עוד דגם — והזו לא יצאה מתנדנדת.

הדגם הקל-משקל האחרון של OpenAI, o3, הופיע בזירת הצ'אטבוט של LMSYS, מוכן להרשים.
אבל במקום להתכופף, זה נפל. בְּשֶׁקֶט.
בוא נפרק למה זה עושה רעש (גם אם o3 עצמו לא עושה רעש).

מה קורה?

OpenAI השיקה את o3 כדגם קל משקל, מהסוג שאמור להיות מהיר יותר, זול יותר ו"מספיק טוב" עבור רוב המשימות.

זה לא GPT-4, וזה לא מנסה להיות.
אבל זה לא מנע מבוחנים עצמאיים לזרוק אותו לזירה.

והנה הטוויסט:
🔹 זה לא הצליח.
🔹 הוא מדורג נמוך יותר מקלוד 3 אופוס, GPT-4 ו-Gemini 1.5 Pro.
🔹 בכמה משימות, זה אפילו פיגר אחרי דגמים ישנים יותר.

ביסודו של דבר, הוא התמקם בהופעת הבכורה שלו.

 

מה הם בודקים במדדים אלה?

זו לא אחת מאותן ביקורות מסתוריות של "סמוך עלינו, זה נהדר".
זהו בדיקה אמיתית - מנוהל על ידי צוות LMSYS דרך הצ'טבוט ארנה שלהם.

הנה מה ש-o3 נבדק עליו:

  • 🧠 מתמטיקה והיגיון: האם זה יכול לחשוב דרך בעיות, חידות וחישובים?

  • 👨‍💻 כתיבת קוד: האם הוא יכול לכתוב קוד עובד או לתקן סקריפטים שבורים?

  • ✍️ כתיבה יצירתית: האם היא יכולה לספר סיפור, לפצח בדיחה או לכתוב מכתב אהבה?

  • 🌍 ידע כללי: האם זה חכם יותר מתלמידי כיתה ה'? או ויקיפדיה?

  • 💬 צ'אט מרובה פניות: האם הוא יכול לנהל שיחה כאילו הוא זוכר מה אמרת?

  • 🎭 מעקב אחר הוראות ומשחק תפקידים: האם זה יכול להיות מועיל, מוזר, או שניהם?

  • 🌐תרגום: האם הוא מבין שפות מעבר לאנגלית של עמק הסיליקון?

כל בדיקה הייתה השוואה עיוורת ראש בראש.
משתמשים אמיתיים בחרו את התשובות המועדפות עליהם מבלי לדעת איזה דגם כתב אותן.

כך הגיעה o3 לציון Elo נמוך יותר — גרסת ה-AI של כרטיס דיווח.

 

מה ה-OpenAi אומרים

כדי להיות הוגנים כלפי OpenAI, הם מעולם לא קראו ל-o3 לילד הזהב שלהם.
זה דגם קל משקל, לא אמור להתחרות ב-GPT-4.
המטרה? חסוך במחשב, רץ מהר ועדיין נשמע חכם למדי.

אבל זה העניין:
אפילו קל משקל צריך להחזיק את עצמם בזירה - וזה מעד מוקדם.

 

מה זה אומר (במילים אנושיות)

הנה הסיכום הידידותי לאדם:

  • o3 הוא לא רע - הוא פשוט גם לא נהדר.

  • זה נעשה כדי להיות זול ומהיר יותר, אבל בניסיון להיות קל, זה גם הלך... קל על ביצועים.

  • אנשים מצפים שכל דבר מ-OpenAI ירגיש פרימיום, וזה הרגיש יותר כמו מדגם חינם שלא שכנע אותנו לקנות.

אם אתה משתמש בבינה מלאכותית במוצרים או בזרימות עבודה, זה ההסבר שלך:
אולי תרצה לבדוק את o3 בעצמך לפני שתחליף אותו.

זה טוב למשימות קלות משקל - אבל אם אתה צריך מוח, זיכרון או עדינות? אולי כדאי להתקשר לקלוד או ג'מיני במקום.

 

🔧 מה אנחנו יכולים להראות בטבלה:

דֶגֶם

דירוג אלו (צ'אטבוט ארנה)

חוזקות

נקודות חלשות

הטוב ביותר עבור

GPT-4

🔵 3 המובילים

הגיון כללי חזק, טוב בקוד, זיכרון על פני תורות

יותר איטי, יקר

אפליקציות פרימיום, משימות היגיון כבדות

קלוד 3 אופוס

🣣 מס' 1 כרגע

ציון אלו הכולל הטוב ביותר, תגובות חלקות, זיכרון נהדר

מעט מילולית

עוזרים, מחקר, צ'אטים ארוכים

Gemini 1.5 Pro

🟢 5 המובילים

מהיר, טוב בהיגיון רב לשוני, מוצק

יכול לצאת מהמסלול

שימוש מעורב, שילובי צוות

OpenAI o3

🟡 שליש תחתון

זול, מהיר, בסדר בבסיס

נאבקים בניואנסים, קוד, ריבוי שלבים

אפליקציות קלות משקל, סיכומים, טיוטות

 

פרספקטיבה של צוות אור קפוא

o3 מרגיש כמו אחת הדוגמאות החינמיות האלה בסופר.
רעיון נחמד, אבל אתה לא שם את זה בעגלה שלך.

אנו יודעים ש-OpenAI בונה מודלים שונים עבור עבודות שונות.
אבל כשהשם שלך הוא OpenAI, אנשים מצפים שכל דוגמנית תהיה סטודנטית מובילה.

הנה איך אנחנו רואים את זה:

  • זה לא אסון גדול.

  • אבל זו תזכורת טובה לכך שלא כל דגמי הבינה המלאכותית זהים.

  • דגמים "קלים" יכולים להיות נהדרים - אבל רק אם הם עדיין עושים את העבודה.

כרגע, o3 הוא כמו מתמחה חכם שעדיין לומד.
אולי תשתמש בו למשימות מהירות, אבל אתה לא מבקש ממנו לכתוב את הספר הבא שלך.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.