هدر بورتفلد(Heather Bortfeld)، دانشمند شناختی در دانشگاه کالیفرنیا، میگوید این مطالعه «رویکردی جذاب» برای درک یادگیری اولیه زبان در کودکان است.
یک شبکه عصبی که تشخیص اشیاء را با استفاده از تجربیات فیلمبرداری شده از دید یک نوزاد آموخته است، میتواند درک جدیدی در مورد نحوه یادگیری انسان ارائه میدهد.
به گزارش ایسنا، یک مدل هوش مصنوعی(AI) با مطالعه تصاویر و فیلمهای ضبط شده از بخش کوچکی از زندگی یک نوزاد که توسط یک دوربین قرار گرفته روی سر نوزاد ثبت شده بود، یاد گرفته است کلماتی مانند «تخت» و «توپ» را تشخیص دهد.
به نقل از نیچر، وای کین وونگ(Wai Keen Vong)، یکی از نویسندگان این مطالعه و محقق هوش مصنوعی در دانشگاه نیویورک میگوید: نتایج نشان میدهد که هوش مصنوعی میتواند به ما در درک نحوه یادگیری انسانها کمک کند.
وانگ میگوید که این موضوع پیش از این نامشخص بود، زیرا سایر مدلهای یادگیری زبان مانند چت جیپیتی(ChatGPT) روی میلیاردها نقطه داده آموزش میدیدند که با تجربیات دنیای واقعی یک نوزاد قابل مقایسه نیست. وقتی ما به دنیا میآییم به ما اینترنت نمیدهند.
نویسندگان امیدوارند که این تحقیق که در روز یکم فوریه در مجله «ساینس»(Science) گزارش شده است، به بحثهای طولانی مدت در مورد چگونگی یادگیری زبان کودکان کمک کند. هوش مصنوعی تنها با ایجاد ارتباط بین تصاویر و کلماتی که با هم میدید زبان را آموخت.
این هوش مصنوعی با هیچ دانش قبلی در مورد زبان برنامه ریزی نشده بود. وونگ میگوید که این برخی از نظریههای علوم شناختی را به چالش میکشد که برای پیوند دادن معنی به کلمات، نوزادان به دانش ذاتی در مورد نحوه عملکرد زبان نیاز دارند.
هدر بورتفلد(Heather Bortfeld)، دانشمند شناختی در دانشگاه کالیفرنیا، میگوید این مطالعه «رویکردی جذاب» برای درک یادگیری اولیه زبان در کودکان است.
نمای چشم نوزاد
وونگ و همکارانش از ۶۱ ساعت تصویر ضبط شده از دوربین قرار گرفته روی کلاه ایمنی یک نوزاد پسر به نام سم استفاده کردند تا تجربیاتی را از دیدگاه نوزاد جمعآوری کنند. سم که در نزدیکی آدلاید در استرالیا زندگی میکند، از سن شش ماهگی تا حدود دو سالگی، دو بار در هفته یعنی تقریبا یک درصد از ساعات بیداری خود به مدت حدود یک ساعت دوربین را میپوشید.
محققان شبکه عصبی خود را که یک هوش مصنوعی الهام گرفته از ساختار مغز است با استفاده از فریمهای ویدیو و کلماتی که به سم گفته شده است، آموزش دادند. این مدل در معرض ۲۵۰ هزار کلمه و تصاویر مربوطه قرار گرفت که در حین فعالیتهایی مانند بازی، خواندن و غذا خوردن گرفته شده بود. این مدل از روشی به نام یادگیری متضاد استفاده کرد تا یاد بگیرد که کدام تصاویر و متنها همخوانی دارند و کدام ندارند.
برای آزمایش این هوش مصنوعی، محققان از مدل خواستند تا یک کلمه را با یکی از چهار تصویر انتخاب شده مطابقت دهد. این آزمایش برای ارزیابی تواناییهای زبانی کودکان نیز استفاده میشود.
این هوش مصنوعی اشیاء را در ۶۲ درصد مواقع با موفقیت طبقهبندی کرد که عملکردی بسیار بهتر از ۲۵ درصدی است که انتظار میرفت به طور تصادفی رخ دهد و قابل مقایسه با یک مدل هوش مصنوعی مشابه است که بر روی ۴۰۰ میلیون تصویر و متن فرای این مجموعه داده آموزش داده شده بود.
در برخی از کلمات، مانند «سیب» و «سگ»، این مدل توانست نمونههایی را که قبلا دیده نشده بودند به درستی شناسایی کند. این کار معمولا برای انسانها نسبتا آسان است.
هوش مصنوعی به طور متوسط در ۳۵ درصد مواقع این کار را با موفقیت انجام داد. وونگ میگوید که این مدل زبانی همچنین در شناسایی اشیایی که از نظر ظاهری تفاوت چندانی ندارند، عملکرد بسیار خوبی داشت. یادگیری کلماتی که میتوانند به موارد مختلفی اشاره کنند مانند «اسباب بازی» برای آن سختتر بود.
درسهایی در مورد یادگیری
بورتفلد میگوید اتکای این مطالعه به دادههای یک کودک واحد ممکن است سوالاتی را در مورد تعمیم یافتهها به موارد دیگر ایجاد کند، زیرا تجربیات و محیطهای کودکان بسیار متفاوت است.
او میافزاید، اما این تمرین نشان داد که میتوان موارد زیادی را در روزهای اولیه زندگی نوزاد از طریق ایجاد ارتباط بین منابع حسی مختلف آموخت.
یادگیری زبان در دنیای واقعی بسیار غنیتر و متنوعتر از هوش مصنوعی است. محققان میگویند که از آنجایی که هوش مصنوعی محدود به آموزش با تصاویر ثابت و متن نوشته شده است، نمیتواند تعاملات ذاتی زندگی یک نوزاد واقعی را تجربه کند.
به گفته وونگ، هوش مصنوعی برای مثال برای یادگیری کلمه «دست» که معمولا در اوایل زندگی نوزاد آموخته میشود، تقلا کرد. بچهها دست خود را دارند، آنها تجربه زیادی با آنها دارند. این قطعا جزء گمشده مدل ما است.