צ’אטבוטים מבוססי בינה מלאכותית מפספסים אבחונים מוקדמים ביותר מ־80% מהמקרים – סיכון חדש עבור אלפאבית A (גוגל) ומובילות ה-AI
- מחקר חדש מראה שמודלי שפה גדולים בתחום הבריאות נכשלים ביותר מ-80% מהמקרים בשלב האבחון המוקדם כשהמידע חלקי, אך מגיעים לדיוק של מעל 90% כשכל נתוני המטופל זמינים, מה שמדגיש מגבלות קריטיות בשיפוט מוקדם של צ’אטבוטים רפואיים.
- הממצאים מחדדים סיכונים אסטרטגיים עבור חברות AI מובילות כמו אלפאבית A ו-OpenAI, שעשויים להאט אימוץ בתחום הבריאות, אך גם מצביעים על פוטנציאל לשיפור גישה לטיפול באזורים מוחלשים, תוך הדגשת הצורך בהכוונה לאיש מקצוע וכלי השוואה למשקיעים כמו זה של TipRanks.

מחקר חדש מעורר שאלות נוספות לגבי כמה רחוק כלי בינה מלאכותית יכולים להגיע בתחום הבריאות. המחקר מראה שצ’אטבוטים נכשלים לעיתים קרובות כשמבקשים מהם לבצע הערכות רפואיות בשלב מוקדם, במיוחד כשהמידע שהמשתמש נותן דל או לא ברור.
המחקר, שפורסם ב-Jama Network Open, בחן 21 מודלי שפה גדולים מחברות כמו OpenAI, אלפאבית A (גוגל), Anthropic, xAI ו-DeepSeek. הוא מצא ששיעורי הכישלון עברו את רמת ה-80% כשהמודלים היו צריכים להציע טווח של סיבות אפשריות על בסיס נתונים מוגבלים.
לעומת זאת, ברגע שנמסרו כל נתוני המטופל, הדיוק עלה במהירות. במקרים כאלה, המודלים הטובים ביותר הגיעו לדיוק של יותר מ-90%, ושיעורי הכישלון ירדו מתחת ל-40%.
כפי שאמר אריה ראו, המחבר הראשי: "המודלים האלה מצוינים בנתינת אבחנה סופית כשהנתונים מלאים, אבל הם מתקשים בשלב הפתוח של תחילת המקרה, כשאין הרבה מידע."
השלכות עבור ענקיות הטכנולוגיה ואסטרטגיית ה-AI
פער זה משמעותי עבור חברות שממהרות לשלב בינה מלאכותית בכלים יומיומיים. חברות כמו OpenAI, Anthropic ואלפאבית A דוחפות צ’אטבוטים לתוך חיפוש, אפליקציות וזרימות שירות ותמיכה למשתמש. עם זאת, המחקר הזה מראה שהמערכות האלה עדיין חסרות יכולת שיפוט חזקה בשלב מוקדם, שהוא קריטי בשימוש בעולם האמיתי.
במקביל, החברות מודעות לסיכון. לדוגמה, גוגל מסרה שכלי Gemini שלה מעודד משתמשים לבדוק עובדות, בעוד ש-Anthropic ציינה שמערכת Claude שלה מכוונת משתמשים לפנות לטיפול מקצועי. OpenAI גם מצהירה שהכלים שלה לא נועדו להחליף ייעוץ רפואי של גורם מוסמך.
ובכל זאת, הדבר עשוי להשפיע על הדרך שבה משקיעים מסתכלים על שלב הצמיחה הבא של תחום ה-AI. למרות שהכלים של חברות כמו אלפאבית A ו-OpenAI מראים שיפור משמעותי במהירות ובהיקפים, המגבלות שלהם בשיפוט עשויות להאט את החדירה שלהם לתחומים עתירי סיכון כמו בריאות.
עם זאת, עדיין יש פוטנציאל חיובי. מומחים מציינים שבינה מלאכותית יכולה לעזור באזורים שבהם הגישה לטיפול רפואי נמוכה. כפי שאמר אחד החוקרים, לכלים הללו "עשויה להיות תרומה, במיוחד במצבים או באזורים גאוגרפיים שבהם הגישה לרופאים מוגבלת."
בסופו של דבר, המחקר לא מערער על הערך של בינה מלאכותית. הוא רק מראה היכן הטכנולוגיה עובדת כיום בצורה הטובה ביותר והיכן החברות עדיין צריכות להשתפר.
באמצעות כלי ההשוואה של TipRanks השווינו בין חברות בולטות שמעסיקות צ’אטבוטים, כמו Claude של Anthropic ו-ChatGPT של OpenAI. כלי ההשוואה עוזר למשקיעים לקבל תמונה רחבה יותר על כל מניה ועל התעשייה בכללותה.
