אתגרי מבחן AGI חדשים מודלים קיימים של AI - קיבלו ציון בין 1% ל-1.3%. בני אדם? בסביבות 60%.
מסתבר שאולי AI עדיין צריך להראות את עבודתו - כמו סטודנט עצבני ביום הבחינה.
בדיקה חדשה בשם ARC-AGI-2 הושקה על ידי קרן Arc Prize (בהנהגת פרנסואה צ'ולט, אותו מוח מאחורי Keras).
זה לא המדד הממוצע שלך. זהו ערכת פאזלים שנועדה לבדוק אם AI באמת יכול לחשוב, לא רק לחזות.
אז איך AGI הצליחה במבחן?
ובכן, דגמי בינה מלאכותית מובילים מ-OpenAI, Anthropic ואחרים... התנערו!
רובם קיבלו ציון בין 1% ל-1.3%, למקרה שאתה תוהה בני אדם קיבלו 60%. זה פער לא קטן - זה בדיקת מציאות.
בדיקה זו שונה מכל מה שהם נמדדו מולו. במקום לבקש מבינה מלאכותית להשלים משפט או לסכם פסקה, היא זורקת אותו לטריטוריה לא ידועה - בעיות שלא נראו מעולם, ללא נתוני אימון להישען עליהם.
הוא מנסה לשאול: האם בינה מלאכותית יכולה לחשוב כמו אדם כשאף אחד לא מנחה אותה?
🧠 איזה סוג של שאלות יש במבחן?
אנחנו יודעים שאתה סקרן לדעת איזה סוג של שאלות יכול לעזור לנו להבחין בין AI ובין אדם - וכמה טוב היית עושה אם היו שואלים אותך אותו הדבר. האם הייתם קרובים יותר ל-60%... או???
אז המבחן הוא הצגת חידות היגיון, המוצגות כרשתות קטנות (כמו תמונות העשויות מגושים או צורות צבעוניות). ה-AI צריך להסתכל על כמה דוגמאות ולהבין את הכלל הנסתר.
לְדוּגמָה:
מוצגות לך 3 תמונות:
תמונה 1: ריבוע אדום בצד שמאל למעלה, ועיגול כחול בצד ימין למטה
תמונה 2: עיגול כחול בצד ימין למעלה, וריבוע אדום בצד שמאל למטה
תמונה 3: ריבוע אדום בצד ימין למעלה, ועיגול כחול בצד שמאל למטה
עכשיו, שואלים אותך: מה יבוא אחר כך?
💡 חשיבה אנושית: "אה, הריבוע האדום זז בכיוון השעון, והעיגול הכחול משקף אותו."
ה-AI צריך לזהות את הדפוס הזה וליצור את התמונה הנכונה הבאה.
נשמע פשוט, נכון? אבל עבור AI, זו התעמלות מנטלית - במיוחד אם זה לא ראה דבר כזה בעבר.
למה זה חשוב?
כי אנחנו עדיין לא מבינים את הבינה המלאכותית כחברה וכיחידים.
AI היא טכנולוגיה שנבנתה כדי לחקות יכולות קוגניטיביות אנושיות, אבל יש הבדל גדול בין מה שאנו מכנים LLM לבין מה שאנו מצפים מ-AGI.
בדיקה זו מראה שאפילו דגמי הבינה המלאכותית החכמים ביותר כיום עדיין מתמקדים בהתאמת דפוסים, לא בהיגיון אמיתי.
זה דבר אחד לחזות את המילה הבאה. זה אחר לפתור בעיה מאפס.
זה מחזיר אותנו למטרה של AGI: זה לא יישאר בתוך מסך. הוא יחיה איתנו, מוקף באנשים - בני אדם שהוא יכול להזיק בקלות (ללא כוונה להזיק).
לכן הוא זקוק ליכולת להתמודד עם מורכבות בעולם האמיתי, מעבר לאימון שלו.
חיים בסביבה מורכבת, משתנה ללא הרף, זה משהו שאי אפשר להכשיר אליו את AGI - היא חייבת לחשוב באמצעותו.
זה המקום שבו ההיגיון האמיתי חשוב.
פרספקטיבה של אור קפוא:
זה לא קשור לכישלון.
זה לגבי הסטנדרט החדש למה שיבוא אחר כך: מתחילים לבנות את הרף ל-AGI בטוח.
אנחנו נכנסים לעולם שבו בינה מלאכותית לא תהיה רק בטלפון שלך - היא תלך, תנקה, תדבר ותקבל החלטות במרחב המחיה שלך.
כן, אנחנו מבינים את זה - זה זוהר לחלום לקרוא ספר בזמן שהרובוט שלך כלים.
אבל משימות פשוטות עבורנו יכולות להיות חידות ענק עבור AGI.
ניקח את שטיפת הרצפה כדוגמה. נשמע קל, נכון?
אבל רגע... זה עץ?
אתה לא יכול להשתמש במים על זה.
באיזה חומר ניקוי אתה משתמש?
אתה מטאטא ראשון? באיזה בד אתה משתמש?
אה - והילד שלך מתרוצץ יחף.
כן, כל חלק חשוב. ו-AGI צריכה להבין הכל - עוד לפני שהיא מתחילה לנקות.
זהו שינוי גדול שכולנו צופים בזהירות.
כי העולם שלנו ישתנה באופן דרמטי כאשר AGI יהיה זמין.
לא רק בגלל שמרגש לשמוע הבטחות גדולות מראשי חברות בינה מלאכותית שזה יגיע בקרוב.
אבל בגלל שההשפעה תהיה אמיתית.
מנקודת המבט שלנו, אנחנו רוצים להזכיר לכולם: אנחנו עדיין מתווכחים על זכויות יוצרים ועל חוק הבינה המלאכותית - וזה עם דגמים שאין להם אפילו גוף.
אז מה קורה כשהם עושים זאת?
האם הם מקבלים משטרה משלהם? (צוחק. סוג של.)
אבל אתה מבין את הסחף שלנו.
קיום תקן ומבחן מסוג זה של רגולציה תהיה ההתחלה של הבנת המינימום המינימלי שצריך להיות מוסמכים לפיו מודלים אלה.
עד כה, רק הספקים ביצעו את השיחות הללו באופן פנימי.
הערה אישית מאיתנו
אנחנו בעצם שמחים שיש לנו זמן.
הגיע הזמן להבין דברים.
הגיע הזמן להתנסות עם לימודי תואר שני.
זמן לפני ש-AGI דופקת על הדלת שלנו - מוכנה לנגב את הרצפה.
-צוות Frozen Light