הכיתוב האוטומטי של Google והמקש ל"חזון "מלאכותי

אין זה סוד כי גוגל כבר מקבל יותר פעיל במחקר בשנים האחרונות, במיוחד מאז זה מחדש מאורגן מחדש באופן משמעותי בחזרה בשנת 2015. ב 22 בספטמבר 2016 הודיעה על שחרור קוד פתוח של פיסת תוכנה שיכולה לזהות את האובייקטים הגדרה של תמונה כדי ליצור באופן אוטומטי כיתוב המתאר אותה. כמובן, אין לה אותה רמה של יצירתיות כמו בני אדם לעשות ביצירת פרוזה בתוך כיתובים, אבל את התמונה מקודד הידוע אחרת בשם V3 ההתחלה צריך תשומת לב שנתפסו מסיבות שמעלים את השטחי "להסתכל על כיתובים זה יכול לעשות "מניע. תוכנה כזו, למעשה, עשויה להיות אבן דרך לעבר משהו גדול יותר על הדרך לבינה מלאכותית מתקדמת יותר.

העיניים יכולות לראות, אבל המודיעין "תופס"

מראה מלאכותי כבר איתנו יותר ממאה שנה. כל דבר עם מצלמה יכול לראות. זה דבר מאוד בסיסי. אבל אפילו עיוור יכול לעלות על ההבנה של המצלמה על מה הוא מסתכל. עד לאחרונה, מחשבים לא היו מסוגלים בקלות ובדייקנות את השם של חפצים שנמצאו בתמונות ללא פרמטרים ספציפיים. כדי לומר באמת כי עצם מעשה ידי אדם יש לו "חזון" פירושו שלפחות יש לו יכולת קונקרטית לקבוע מה הוא מסתכל, ולא רק להסתכל על זה בלי לאסוף שום הקשר. בדרך זו, המכשיר יכול להגיב לסביבתו על פי מראה, בדיוק כמו שאנחנו עושים. תפיסה היא הכרח מוחלט. בלי זה, כל חוש יש לנו הוא חסר תועלת.

תפיסה באמצעות כתוביות תמונה אוטומטית

למרות שאנו מאמינים בדרך כלל כי כל תמונה שווה אלף מילים, התחלה V3 לא בהכרח לשתף את הדעה. התוכנה אוטומטית התמונה captioning יש מעט מאוד דברים לומר על מה שהיא רואה, אבל זה לפחות יש הבנה בסיסית של הבנת מה הכלול במסגרת הציג את זה.

עם מידע בסיסי זה נקטנו צעד לעבר היכולת של התוכנה להבין גירויים חזותיים. מתן רובוט מסוג זה יאפשר לו להגיב לגירויים כאלה, ולהביא את האינטליגנציה שלו לרמה של רוב בעלי החיים הבסיסיים ביותר. זה אולי לא נשמע כמו הרבה, אבל אם תסתכל על איך הרובוטים עושים עכשיו (כאשר נבדק מחוץ הפרמטרים המגבילים ביותר שלהם), תגלה כי זה יהיה די לקפיצה מודיעינית לעומת הדרך אמבי שבו הם יכולים לתפוס את הסביבה שלהם.

מה זה אומר עבור AI (ולמה זה רחוק מלהיות מושלם)

העובדה שיש לנו כעת תוכנה (עם 93 אחוזים דיוק) יכול כיתוב תמונות אומר שיש לנו קצת להתגבר על המכשול של מקבל מחשבים כדי להבין את הסביבות שלהם. כמובן, זה לא אומר שאנחנו קרובים קרוב לסיים את המחלקה. זה גם ראוי להזכיר כי V3 ההתחלה היה מאומן על ידי בני אדם לאורך זמן ומשתמש במידע זה "למד" לפענח תמונות אחרות. כדי להבין את הסביבה של האדם, עלינו להיות מסוגלים להשיג רמה מופשטת יותר של תפיסה. האם האדם בתמונה כועס? האם שני אנשים נלחמים? מה האישה על הספסל בוכה?

השאלות הנ"ל מייצגות את סוגי הדברים שאנו שואלים את עצמנו כאשר אנו פוגשים בני אדם אחרים. זה סוג של חקירה מופשטת הדורשת מאיתנו extraolate מידע יותר מאשר מה התמונה captioning doohickey יכול לעשות. בואו לא נשכח כי הדובדבן על העוגה אנחנו אוהבים לקרוא רגשית (או "לא רציונלי") התגובה למה שאנחנו רואים. בגלל זה אנחנו רואים פרחים יפה, ביוב מגעיל, צ 'יפס טעים. זה משהו שאנחנו עדיין תוהה אם נוכל אי פעם להשיג ברמה מכונה ללא למעשה קשה קידוד זה. האמת היא שתופעה "אנושית" זו היא בלתי אפשרית ללא תכנה מגבילה. כמובן, זה לא אומר שלא נפסיק לנסות. אנחנו, ככלות הכל, אנושיים .

האם אתה חושב כי הרובוטים הרובוט שלנו אי פעם ללמוד להעריך את המורכבות של עלי כותרת של ורדים תחת מיקרוסקופ? ספר לנו הערה!