איך ChatGPT עובד (המדריך המלא עם דוגמאות, בצורה שאפשר להבין!)

צ'אט GPT היא אולי אחד הדברים הכי חשובים שקרו באינטרנט בזמן האחרון, וכנראה גם אחת ההצלחות הכי גדולות של העשור.
מה שהתחיל כדמו טכנולוגי או צ'אטבוט המבוסס על מודל שפה (LLM) של OpenAI, הפך היום לכלי שמשתמשים בו מליונים ברחבי העולם.

המודלים שמאחורי האפליקציה יכולים לחפש מידע באינטרנט, לייצר ולנתח תמונות, ולכתוב שירים מצחיקים על הבוס שלך.
בנוסף, הכלי מסוגל לסכם מסמכים ענקיים, לכתוב קוד מחשב, ולעבור מבחנים שרק מעטים מבני האדם מצליחים לצלוח.

השאלה הגדולה היא – איך הוא עושה את זה? איך הChatGPT עובד?

ChatGPT עובד בשני שלבים – איסוף נתונים ושלב התגובה

עכשיו שהבנו את המושגים הבסיסיים שקשורים ללמידה של מודלי AI (וגם של ChatGPT) נוכל להבין איך ChatGPT עובד. למעשה, בגדול כדי שמודל AI יעבוד, צריך לאמן אותו. וזה גם השלב הראשון שבו צ'אט GPT עובד.

בואו ניקח את גוגל כדוגמא, כשאתם מחפשים משהו בגוגל, המחשבים של גוגל באותו הרגע לא מתחילים לסרוק את כל את כל האינטרנט.מה שהוא שכן עושה זה לחפש במאגר הנתונים שלו דפים שתואמים את הבקשה שלכם.

לגוגל יש שני שלבים עיקריים: שלב איסוף המידע (Spidering) ושלב אינטראקציית המשתמש (Lookup).

בצורה דומה, גם ChatGPT פועל בשני שלבים עיקריים:

שלב איסוף הנתונים, הנקרא Pre-training – שלב שבו המערכת "לומדת" דפוסים ושפה ממאגרי נתונים עצומים.
שלב ההממשק, הנקרא Inference – שבו המערכת יוצרת תגובות בזמן אמת על בסיס המידע שנלמד.

שלב האימון המוקדם (Pre-Training)

בשלב זה, המודל "לומד" איך שפה עובדת. המפתחים מזינים למערכת כמות עצומה של טקסטים מספרים, אתרי אינטרנט ומאמרים. ChatGPT מנתח את הטקסטים הללו כדי להבין דפוסים, מבנים ושימושים בשפה.
אפשר לדמיין את זה כמו תלמיד שקורא אינספור דוגמאות כדי ללמוד את כללי השפה ואת הקשריה.

סוגים שונים של Pre-Training

אולי הרשימה הבאה תיראה לכם מבולגנת במבט ראשון, אבל חשוב להבין את המושגים הבאים טוב יותר כדי להבין איך פועלים מודלי שפה גדולים (LLMs), מודלים מולטימודליים (LMMs), ושאר המודלים שבהם משתמש ChatGPT.

אחד החלקים המרכזיים בפיתוח מודלי AI הוא האימון. האות P ב-GPT מסמלת "Pre-trained" (מאומן מראש), וזה מה שהופך את המודלים ליכולים כל כך.

למידה בפיקוח (Supervised Learning)

לפני GPT-1, רוב המודלים השתמשו בלמידה בפיקוח, שבה נתונים מתויגים ידנית. לדוגמה, תמונות של בעלי חיים היו מתויגות עם תיאורים כתובים על ידי בני אדם. שיטה זו יעילה אך יקרה מאוד ודורשת המון עבודה ידנית.

למידה ללא פיקוח (Unsupervised Learning)

במקום להשתמש בנתונים מתויגים, GPT-1 ואילך קיבלו כמויות עצומות של נתונים לא מתויגים (למשל, כמעט כל האינטרנט הפתוח). המודל "למד" לבד לזהות דפוסים, חוקים וקשרים בטקסט ללא הנחיה ישירה.
GPT-4o, לדוגמה, שיפר את זה על ידי שילוב נתונים נוספים כמו תמונות ואודיו, מה שאיפשר לו להבין לא רק מהו תפוח, אלא גם איך הוא נראה.

כיוונון נוסף (Fine-Tuning)

למרות הכוח של למידה ללא פיקוח, התוצאה הראשונית לא תמיד מדויקת או צפויה. כדי לשפר את ביצועי המודל, ChatGPT n משתמש בשיטות של למידה בפיקוח כדי להפוך את התגובות ליותר מותאמות ומדויקות.

בקצרה, ChatGPT משלב את הטוב משני העולמות: למידה ללא פיקוח לניתוח כמות עצומה של נתונים, וכיוונון נוסף עם למידה בפיקוח לדיוק ואמינות.

תפקידו של Transformer בשלב האימון המוקדם

כל שלב האימון של ChatGPT נועד ליצור רשת נוירונים עמוקה—אלגוריתם מורכב ורב-שכבתי שמדמה את פעילות המוח האנושי.
הרשת הזו לומדת דפוסים וקשרים בנתוני טקסט ומאפשרת ל-ChatGPT לייצר תגובות "דמויות אנוש" על ידי חיזוי מה המילה הבאה שצריכה להופיע במשפט.

בנוסף לPre Training (למידה) של המידע, ישנה טכנולוגיה נוספת בה משתמש ChatGPT על מנת לנתח מידע.

ה-T ב-GPT מסמלת Transformer, טכנולוגיה שהוצעה לראשונה במאמר מחקר מ-2017.
הטכנולוגיה הזו שינתה לחלוטין את עולם הבינה המלאכותית וכיום היא הבסיס לרוב המודלים המתקדמים.

למרות שהרעיון מורכב, המודל הזה למעשה פישט את הדרך שבה מודלים של AI מתוכננים:

חישוב במקביל: המודל מבצע חישובים בו-זמנית במקום ברצף, מה שהפחית משמעותית את זמן האימון.
חיסכון בזמן ובעלות: שיטה זו הפכה את המודלים למהירים וזולים יותר לייצור.

איך Transformers עובדים: תשומת לב לטקסט ולנתונים

בניגוד למודלים ישנים שקוראים טקסט מילה-אחר-מילה, Transformers קוראים את כל המילים במשפט בבת אחת ומשווים כל מילה לכל האחרות. הם מזהים אילו מילים הכי רלוונטיות לרעיון המרכזי, בלי קשר למיקומן במשפט.
בנוסף, התהליך הזה מתבצע במקביל, מה שמנצל את כוח המחשוב המודרני ומאיץ את החישובים.

Transformers לא באמת "קוראים" מילים כמו שאנו מבינים אותן.
הם עובדים עם טוקנים (Tokens), שהם מקטעי טקסט או תמונה שהוצפנו כוקטורים (מספרים עם מיקום וכיוון).

זיהוי קשרים רחבים (Self Attention)

Transformer משתמש בתהליך שנקרא Self-Attention, המאפשר למודל להתמקד במילים החשובות ביותר בטקסט, ללא קשר למיקומן במשפט.
במקום לקרוא טקסט מילה-אחר-מילה, המודל סורק את כל המשפט במקביל ומבצע השוואות בין כל המילים.

היתרונות של Transformer

חישוב במקביל: המודל מבצע חישובים בו-זמנית במקום ברצף, מה שהפחית משמעותית את זמן האימון.
זיהוי קשרים רחבים: Self-Attention מאפשר למודל להבין הקשרים רחבים בין מילים ורעיונות.

זהו תיאור פשוט של הרעיון, אך בפועל, יש מתמטיקה מורכבת מאוד שמאחורי התהליך. לסיכום, Transformers מצליחים לנתח טקסט ולזהות הקשרים רלוונטיים במהירות וביעילות, מה שהופך אותם לכלי מרכזי בעידן הבינה המלאכותית.

כיצד ChatGPT עובד עם טוקנים

במהלך העיבוד, טקסט מפורק ליחידות קטנות הנקראות Tokens.

מה זה טוקנים?: טוקנים הם מקטעי טקסט קטנים (בדרך כלל באורך של כ-4 תווים).

למה זה חשוב?: טוקנים מאפשרים למודל לנתח טקסט בצורה יעילה במיוחד כשהוא מתמודד עם כמויות עצומות של נתונים.
לדוגמה, המילה "cat" עשויה להיות טוקן אחד, בעוד המילה "understanding" עשויה להתחלק למספר טוקנים.

זיכרון הקשרי (Contextual Memory)

במהלך שיחה, ChatGPT מסוגל "לזכור" את הטקסטים הקודמים שנכתבו כדי לשמור על הקשר השיחה.

מגבלות: יש מגבלה על כמות הטוקנים שהמודל יכול לעבד בבת אחת, ולכן מידע ישן עשוי "להישכח" בשיחות ארוכות מאוד.

יכולות מולטימודליות (Multimodal Capabilities)

גרסאות מתקדמות כמו GPT-4o כוללות יכולת לעבד נתונים שאינם טקסטואליים, כמו תמונות ואודיו.

לדוגמה, המודל יכול לא רק "לדעת" מהו תפוח לפי תיאורו, אלא גם לזהות את מראהו או הקול שהוא משמיע.
יכולות אלה הופכות את ChatGPT לכלי רב-תכליתי שמסוגל להתמודד עם משימות מורכבות.

המגבלות של ChatGPT

דיוק: ChatGPT עלול לספק תשובות לא מדויקות או שגויות ("הלוצינציות").
הטיות: המודל עשוי לשקף דפוסים מוטים שנמצאו במאגר הנתונים שעליו אומן.
חוסר עדכניות: המידע ש-ChatGPT מספק מוגבל לתאריך האימון האחרון שלו.

מאגרי הנתונים לאימון ChatGPT

מאגר הנתונים שבו נעשה שימוש לאימון ChatGPT הוא עצום בגודלו.
ChatGPT מבוסס על הארכיטקטורה של GPT-4 (Generative Pre-trained Transformer 3), אך יש צורך להבהיר:

הגרסה החינמית של ChatGPT התבססה על GPT-3 ועודכנה לאחרונה ל-GPT-4o, גרסה מתקדמת יותר.
מנויי ChatGPT Plus יכולים לגשת למאגרי הנתונים של GPT-4, או ל-GPT-4o.

מה מסמל השם GPT?

עכשיו שהבנו איך ChatGPT עובד, נוכל גם להבין את

השם GPT מתאר שלושה מאפיינים מרכזיים:

Generative: המודל מייצר תוצאות חדשות.
Pre-trained: מבוסס על מאגרי נתונים עצומים שנלמדו מראש.
Transformer: משתמש בארכיטקטורה שמבינה הקשר על בסיס משקל טקסטואלי של קלטים.

סיכום

צ'אטGPT פועל בשני שלבים מרכזיים: אימון מוקדם (Pre-Training) שבו המודל לומד ומבין את השפה, ושלב הממשק (Inference) שבו הוא מיישם את הידע שלו כדי ליצור תגובות מדויקות ומועילות.
עם טכנולוגיות כמו Transformer, Self-Attention, Tokens, ויכולות מולטימודליות, המודל מצליח להתמודד עם מגוון רחב של משימות בצורה מרשימה.

אולי גם תרצו ללמוד איך פרומפטים עובדים.