המחקר הזה בוצע על ידי Chroma - חברה שמתמחה ב-Vector Databases ו-RAG (Retrieval-Augmented Generation).
מי אלו Chroma? חברה שפיתחה בסיס נתונים וקטורי פופולרי לאפליקציות AI מתמחים בטכנולוגיות של חיפוש סמנטי ואחסון embeddings המוצר שלהם משמש הרבה מפתחים לבניית אפליקציות עם RAG.
למה הם חקרו את זה?
הם רואים מקרוב איך מפתחים נתקלים בבעיות ביצועים הלקוחות שלהם מתלוננים שהתשובות נהיות גרועות יותר עם יותר מידע זה ישירות משפיע על איכות המוצר שלהם.
למה זה אמין?
הם עובדים עם המון חברות שמשתמשות ב-RAG יש להם נתונים אמיתיים מהשטח הם רואים את הבעיה במקרים אמיתיים, לא רק במעבדה
Bottom Line: זה לא מחקר אקדמי מנותק - זה חקירה של חברה שרואה את הבעיה בשטח ורוצה לפתור אותה כי זה משפיע על הלקוחות שלהם .
"הניסויים שלנו מוכיחים שמודלי שפה גדולים (LLMs) מציגים ביצועים לא עקביים לאורך אורכי הקשר שונים, אפילו במשימות פשוטות. עם זאת, הערכה זו אינה ממצה את כל מקרי השימוש בעולם האמיתי. בפועל, אפליקציות עם הקשר ארוך הן לרוב הרבה יותר מורכבות, ודורשות סינתזה או חשיבה רב-שלבית. על בסיס הממצאים שלנו, היינו מצפים שהירידה בביצועים תהיה אפילו יותר חמורה בתנאים כאלה."
לתוצאות שלנו יש השלכות גם על עבודה עתידית בהערכות הקשר ארוך. מגבלה נפוצה בבנצ'מרקים קיימים היא הנטייה לערבב בין אורך הקלט לבין קושי המשימה, כיוון שקלטים ארוכים יותר לרוב מכניסים חשיבה מורכבת יותר. אנחנו מתמקדים בניסויים שלנו כדי לבודד את אורך הקלט כגורם ולשמור על קושי המשימה כקבוע. כיוון חשוב לעבודה עתידית הוא להפריד כמה מהירידה בביצועים של המודל נובעת מהקושי הפנימי של המשימה עצמה לעומת היכולת שלו לטפל ביעילות בהקשרים ארוכים.
אנחנו גם לא מסבירים את המנגנונים מאחורי הירידה הזו בביצועים. התצפיות שלנו מציעות שמאפיינים מבניים של הההקשר, כמו המיקום או החזרה של מידע רלוונטי, יכולים להשפיע על התנהגות המודל, אבל אין לנו תשובה מוחלטת למה זה קורה. חקירת ההשפעות הללו תדרוש חקירה עמוקה יותר של פרשנות מכניסטית, שזה מעבר לטווח של הדוח הזה.
באופן רחב יותר, הממצאים שלנו מצביעים על החשיבות של הנדסת הקשר: הבנייה והניהול הזcareful של חלון ההקשר של המודל. איפה ואיך מציגים מידע בהקשר של המודל משפיע מאוד על ביצועי המשימה, מה שהופך את זה לכיוון משמעותי של עבודה עתידית לאופטימיזציה של ביצועי המודל. הנקודות המרכזיות:
הבעיה כנראה יותר חמורה במשימות מורכבות אמיתיות צריך להבדיל בין קושי המשימה לבין אורך הטקסט לא ברור למה בדיוק זה קורה (צריך מחקר עמוק יותר) Context Engineering זה התחום החשוב לעבודה עתידית