הפרויקט שאתה שואל עליו הוא יוזמה חדשנית של GDELT בשיתוף עם Internet Archive, שמטרתה ליצור אינדקס ענק, אוטומטי וממופה-סיפורים של שידורי חדשות הטלוויזיה המרכזיים בארה״ב במשך 15 שנים – מיולי 2010 ועד היום. במקום לקטלג ידנית (כפי שנעשה בעשורים האחרונים בארכיונים ידועים), הפרויקט עושה שימוש במודלי בינה מלאכותית (AI), בדגש על Google Gemini 2.5 Flash, כדי:
- לפרק שידורי חדשות ללרשימות מסודרות של "סיפורים" (stories) – כל נושא עיקרי ששודר בכל מהדורה.
- למפות לכל סיפור את כל המקומות (עם קואורדינטות מדויקות), הרגשות המרכזיים, המסגור התקשורתי (framing), מבנה הסיפור (narrative structure), מילות מפתח, ישויות (אנשים, ארגונים, אירועים), ועוד.
- לייצר אינדקס המתאים לחיפוש – לדוג׳: למצוא כל סיפור על אוקראינה או נגיף הקורונה בכל ערוץ ובכל תאריך, כולל איפה בדיוק הוא הופיע בשידור.
- הכל במבנה JSON תקני, שמתאים לחוקרים, עיתונאים ואנליסטים.
הפרויקט הדגים שאפשר לנתח כמעט 15,000 מהדורות (עם מעל 150,000 סיפורים) בפחות משעה, באופן אוטומטי לחלוטין ובעלות נמוכה מאוד. הרעיון המרכזי הוא להנגיש מחקר עומק חדשני על איך חדשות טלוויזיה בונות סיפורים, ממסגרות אירועים, מפיצות רגשות, ומתייחסות לגיאוגרפיה, במשך תקופה ארוכה – בצורה הניתנת לחיפוש, אנליזה והשוואה.
בגלל שהכל מבוסס על מודל AI ללא פיקוח ידני, יש גם אלמנט ניסויי – המטרה לבדוק כמה טוב AI מסוגל לקטלג ולמסגר ידנית חומרים מורכבים ואיך ניתן להפיק מהאינדקס תובנות חדשות.
ה”קודים” שמוזכרים במאמר (codes) הם קטעי SQL ותצורות JSON שבהם השתמשו כדי לפענח, לקטלג ולעבד את שידורי החדשות ומידע המטא־דאטה שלהם:
- קוד SQL
- תצורת JSON
הכותב מסביר שנדרש שאילתה מורכבת ב-SQL כדי לשלוף בדיוק את המהדורה הראשית (ולא שידורים חוזרים) מכל אחד מהערוצים בכל ערב. בשאילתה משתמשים גם במשתני זמן (15:00-18:00), במיון לפי התחלה, ובזיהוי התפתחויות בתוכניות. זו דוגמה לקוד לצורך שליפת רשימת כל השידורים בערבים, בתאריכים, ובערוצים המוגדרים.
נעשה שימוש במבנה JSON מוגדר מראש (Schema) שמגדיר אילו שדות לכלול בכל פלט של מודל הבינה המלאכותית:
- כותרת הסיפור (TITLE), תיאור, מילות מפתח (KEYWORDS), רשימת מיקומים (כולל קואורדינטות), ישויות (אנשים, חברות, מדינות וכו׳), רגשות (EMOTIONS), מסגור (FRAMING), מבנה נרטיבי (NARRATIVESTRUCTURE), ורשימת מזהי משפטים (SENTENCEIDS).
הם מגישים את זה כפורמט מובן למודל ומקבלים ממנו רשומה עבור כל סיפור שנמצא במהדורה.
- הוראות הגשה ותיעוד API
- דוגמאות פלט הסבר
המדריך כולל דוגמאות כיצד להריץ את העבודה הזו אוטומטית מול שירותי Google AI (Batch Prediction Jobs) עם JSON שמפרט איפה נמצאים קבצי המקור, לאן לשלוח את הפלט, תצורת הפעלה וכו׳. זה בעצם “קוד” של תהליך עיבוד נתונים אוטומטי.
בהסבר מופיעים גם דגמי פלט שכוללים JSON מסודר לכל סיפור: פלט זה הוא “קוד” תוצר, לא קוד ריצה.
כלומר - המאמר מדגים כיצד מחברים בין שאילתות SQL, מכונת עיבוד אוטומטית (AI), ותצורת נתונים (JSON Schema) כדי להפוך וידאו בלתי מובנה לאינדקס חכם וניתן לחיפוש ולהשוואה.