האם שמעתם על העוזרת הקולית הסופר מתקדמת של OpenAI?
ב-30 ביולי 2024, הציגה OpenAI את הגרסה הראשונית של מצב הקול המתקדם שלה לקבוצת משתמשים נבחרת של מנויי ChatGPT Plus. הפיצ'ר החדש, המופעל על ידי מודל GPT-4o, מציע אינטראקציות קוליות מציאותיות בזמן אמת. זהו קפיצת מדרגה משמעותית באינטראקציה בין בני אדם לבינה מלאכותית, עם תגובות קוליות טבעיות והפחתה משמעותית בזמן ההמתנה. OpenAI מתכננת להרחיב את הגישה לכלל המנויים עד סתיו 2024, תוך בדיקות ושיפורים מתמשכים.
זיהוי טונים רגשיים
על פי התוצאות שהתקבלו מהחיפוש, GPT-4o יכול לזהות מגוון טונים רגשיים בקול המשתמש, כולל:
עצב: GPT-4o יכול לזהות טון עצוב או כבד בקול המשתמש .
התרגשות: המודל מזהה התלהבות והתרגשות בקול המשתמש .
שירה: GPT-4o מסוגל לזהות כאשר המשתמש שר או משלב אלמנטים מוזיקליים בדיבורו .
כעס: קול מוגבר או טון תוקפני יכולים להתפרש ככעס על ידי GPT-4o .
המודל מנתח היבטים שונים של הדיבור כדי לקבוע את המצב הרגשי של המשתמש, כגון אינטונציה, שינויים בגובה הצליל, מהירות הדיבור, שטף ועוצמת הקול . על ידי הערכת גורמים אלה, GPT-4o יכול לסווג את הרגש כחיובי, שלילי או נייטרלי ולהגיב בהתאם באמפתיה והבנה .
עם זאת, חשוב לציין כי פרשנות רגשות יכולה להיות מורכבת, במיוחד כאשר מתמודדים עם עדינות כמו סרקזם או מצבים התלויים בהקשר . כמו בני אדם, GPT-4o מסתמך על הקשר כדי להבין בצורה מדויקת את הרגשות .
תכונות ויכולות מרכזיות
מצב הקול המתקדם מאפשר שיחות בזמן אמת עם השהייה מינימלית, כולל אפשרות להפסיק את ChatGPT באמצע משפט לאינטראקציה טבעית יותר. המערכת יכולה לזהות ולהגיב לטונים רגשיים שונים, כולל עצב, התרגשות ואפילו שירה. כדי למנוע ניצול לרעה ולהגן על הפרטיות, הגביל OpenAI את הפיצ'ר לארבעה קולות מוגדרים מראש - Juniper, Breeze, Cove ו-Ember - שנוצרו בשיתוף פעולה עם שחקני קול מקצועיים. קולות אלו מחליפים את הקול "Sky" מההדגמה הראשונית, כדי להבטיח שה-ChatGPT לא יוכל להתחזות לאנשים ספציפיים או דמויות ציבוריות.
אמצעי בטיחות ותוכנית ההשקה
כדי להבטיח השקה אחראית, הטמיעה OpenAI אמצעי בטיחות חזקים למצב הקול המתקדם. החברה בדקה את הפיצ'ר עם יותר מ-100 בודקים חיצוניים ב-45 שפות, והקימה מערכות לחסימת פלטים החורגים מהקולות המוגדרים מראש. נוספו מסננים למניעת יצירת תוכן אלים או זכויות יוצרים, תוך התייחסות לחששות לגבי ניצול לרעה אפשרי. תוכנית ההשקה זהירה במכוון, עם ניטור הדוק והרחבה מדורגת של הגישה. בעוד שמנויים מסוימים כבר קיבלו הזמנות, החברה שואפת להפוך את הפיצ'ר לזמין לכל מנויי ה-Plus עד סוף סתיו 2024, תוך שיפור הטכנולוגיה והתמודדות עם כל בעיה חדשה שתעלה.
רקע ופיתוחים עתידיים
פיתוח מצב הקול המתקדם נתקל במחלוקת כאשר בהדגמה הראשונית במאי 2024 הופיע קול שדמה לשחקנית סקרלט ג'והנסון, שדחתה בעבר הצעות להיות קול ChatGPT. זה הוביל לפעולה משפטית ולהסרת קול "Sky". בעתיד, מתכננת OpenAI להציג תכונות נוספות כמו יכולות וידאו ושיתוף מסך, שהוצגו בעדכון האביב אך לא כלולות בגרסה הנוכחית. החברה מכינה גם דו"ח על מאמצי הבטיחות שלה, הצפוי בתחילת אוגוסט, שיפרט את הבדיקות הנרחבות שנערכו עם בודקים חיצוניים במספר שפות.
מה דעתכם? האם הייתם רוצים לדבר עם בינה מלאכותית שנשמעת כל כך טבעית?
מקור
עוד כתבות, כלים ותוכן בעולמות הבינה מלאכותית בלחיצה על הכפתור⇣