הפרויקט שאתה שואל עליו הוא יוזמה חדשנית של GDELT בשיתוף עם Internet Archive, שמטרתה ליצור אינדקס ענק, אוטומטי וממופה-סיפורים של שידורי חדשות הטלוויזיה המרכזיים בארה״ב במשך 15 שנים – מיולי 2010 ועד היום. במקום לקטלג ידנית (כפי שנעשה בעשורים האחרונים בארכיונים ידועים), הפרויקט עושה שימוש במודלי בינה מלאכותית (AI), בדגש על Google Gemini 2.5 Flash, כדי:
Building A Story Index Of A Decade Of TV Evening News With Geocoding, Sentiment, Frame & Narrative Analysis In 1 Hour For $154
Journalism is fundamentally about reporting stories. Digital and print journalism organizes stories into discrete "articles", making it easy to find coverage of a given story. In contrast, television news is an endless 24/7 stream of spoken and onscreen words, with no index or other information listing what stories were covered in a given broadcast. Want a list of all of the stories about Ukraine last week? That's a trivial keyword search for digital news, but journalists and scholars wishing to study television news have no equivalent. For more than 60 years, Vanderbilt University's Television News Archive has been using human indexers to watch television evening news broadcasts each day and compile by hand a list of all of the stories each broadcast covers, but the labor intensiveness of human cataloging means it could never be scaled up to inventorying 24/7 coverage. Have AI models reached the point where they could be used to make this kind of story index – making an inventory for example of all of the stories over the past month about tariffs or Ukraine or hurricanes, etc? In other words, can AI allow us to move beyond keyword search to story search?
blog.gdeltproject.org
- לפרק שידורי חדשות ללרשימות מסודרות של "סיפורים" (stories) – כל נושא עיקרי ששודר בכל מהדורה.
- למפות לכל סיפור את כל המקומות (עם קואורדינטות מדויקות), הרגשות המרכזיים, המסגור התקשורתי (framing), מבנה הסיפור (narrative structure), מילות מפתח, ישויות (אנשים, ארגונים, אירועים), ועוד.
- לייצר אינדקס המתאים לחיפוש – לדוג׳: למצוא כל סיפור על אוקראינה או נגיף הקורונה בכל ערוץ ובכל תאריך, כולל איפה בדיוק הוא הופיע בשידור.
- הכל במבנה JSON תקני, שמתאים לחוקרים, עיתונאים ואנליסטים.
הפרויקט הדגים שאפשר לנתח כמעט 15,000 מהדורות (עם מעל 150,000 סיפורים) בפחות משעה, באופן אוטומטי לחלוטין ובעלות נמוכה מאוד. הרעיון המרכזי הוא להנגיש מחקר עומק חדשני על איך חדשות טלוויזיה בונות סיפורים, ממסגרות אירועים, מפיצות רגשות, ומתייחסות לגיאוגרפיה, במשך תקופה ארוכה – בצורה הניתנת לחיפוש, אנליזה והשוואה.
בגלל שהכל מבוסס על מודל AI ללא פיקוח ידני, יש גם אלמנט ניסויי – המטרה לבדוק כמה טוב AI מסוגל לקטלג ולמסגר ידנית חומרים מורכבים ואיך ניתן להפיק מהאינדקס תובנות חדשות.
ה”קודים” שמוזכרים במאמר (codes) הם קטעי SQL ותצורות JSON שבהם השתמשו כדי לפענח, לקטלג ולעבד את שידורי החדשות ומידע המטא־דאטה שלהם:
- קוד SQL
- תצורת JSON
הכותב מסביר שנדרש שאילתה מורכבת ב-SQL כדי לשלוף בדיוק את המהדורה הראשית (ולא שידורים חוזרים) מכל אחד מהערוצים בכל ערב. בשאילתה משתמשים גם במשתני זמן (15:00-18:00), במיון לפי התחלה, ובזיהוי התפתחויות בתוכניות. זו דוגמה לקוד לצורך שליפת רשימת כל השידורים בערבים, בתאריכים, ובערוצים המוגדרים.
נעשה שימוש במבנה JSON מוגדר מראש (Schema) שמגדיר אילו שדות לכלול בכל פלט של מודל הבינה המלאכותית:
- כותרת הסיפור (TITLE), תיאור, מילות מפתח (KEYWORDS), רשימת מיקומים (כולל קואורדינטות), ישויות (אנשים, חברות, מדינות וכו׳), רגשות (EMOTIONS), מסגור (FRAMING), מבנה נרטיבי (NARRATIVESTRUCTURE), ורשימת מזהי משפטים (SENTENCEIDS).
הם מגישים את זה כפורמט מובן למודל ומקבלים ממנו רשומה עבור כל סיפור שנמצא במהדורה.
- הוראות הגשה ותיעוד API
- דוגמאות פלט הסבר
המדריך כולל דוגמאות כיצד להריץ את העבודה הזו אוטומטית מול שירותי Google AI (Batch Prediction Jobs) עם JSON שמפרט איפה נמצאים קבצי המקור, לאן לשלוח את הפלט, תצורת הפעלה וכו׳. זה בעצם “קוד” של תהליך עיבוד נתונים אוטומטי.
בהסבר מופיעים גם דגמי פלט שכוללים JSON מסודר לכל סיפור: פלט זה הוא “קוד” תוצר, לא קוד ריצה.
כלומר - המאמר מדגים כיצד מחברים בין שאילתות SQL, מכונת עיבוד אוטומטית (AI), ותצורת נתונים (JSON Schema) כדי להפוך וידאו בלתי מובנה לאינדקס חכם וניתן לחיפוש ולהשוואה.