مدل‌های هوش مصنوعی انسان نیستند؛ آنها را با معیارهای انسانی اندازه نگیرید

2 سال پیش

مدل‌های بزرگ زبانی از جمله GPT-4 مدتی است که با توانایی‌های خاص خود بسیاری از مردم و حتی جامعه علمی را شگفت‌ زده‌ کرده‌اند. در نبود یک معیار و سنجه مناسب، بسیاری این ابزارها را با آزمون‌های ارزیابی هوش انسان محک می‌زنند. اما آیا پیش‌فرض‌هایی که برای انسان و هوش انسانی داریم بر این سیستم‌های ناشناخته نیز صدق می‌کنند؟

طیفی از پژوهشگران معتقدند که نباید برای سنجش مدل‌های بزرگ زبانی (LLM)، از آزمون‌های خاص انسان استفاده کرد و به جای نگاهی نتیجه‌محور، باید نگاهی عمیق به چگونگی تولید این نتایج پرداخت. در ادامه مقاله‌ای از مجله MIT Technology Review در همین باره را می‌خوانید که در آن چندین پژوهشگر رویکرد حاکم برای سنجش توانمندی‌های هوش مصنوعی را به چالش می‌کشند.

انسان‌انگاری مدل‌های بزرگ زبانی

تیلور وب، اوایل سال ۲۰۲۲ و هنگامی که با GPT-3 کلنجار می رفت، از توانمندی ظاهری مدل زبانی اوپن‌ای‌آی، متحیر شد. پیش رویش یک شبکه عصبی بود که آموزش دیده‌بود تا کلمه بعدی یک رشته متن را پیش‌بینی کند (تکمیل خودکار جملات، اما به صورت پیشرفته) همین ابزار بسیاری از سوالات پیچیده وب را به درستی پاسخ می‌داد از آن دسته سوالاتی که در یک تست IQ مشاهده می‌کنید. او می‌گوید: «توانایی آن در حل این مسائل واقعاً من را شوکه کرد، با هرآنچه پیش‌بینی می‌کردم متفاوت بود.»

وب، روانشناسی از دانشگاه لس‌آنجلس کالیفرنیا است و راهکار‌های مختلف حل مسائل پیچیده در انسان و کامپیوتر‌ها را بررسی می‌کند. او پیش از این با ساخت شبکه‌های عصبی که توانایی استدلال خاصی در درونشان جای گرفته بود آشنایی داشت، اما به نظر می‌رسید که GPT-3، توانایی استدلال‌های مختلف را خودمختار می‌آموزد.

وب و همکارانش ماه گذشته با انتشار مقاله‌ای در مجله نیچر توضیح دادند که GPT-3 برای قبولی در آزمون‌های مختلف از روش تمثیل برای حل مسئله استفاده می‌کند (روشی که به استدلال تمثیلی معروف است.) GPT-3 در برخی از این آزمون‌ها نمره بهتری از یک گروه متشکل از دانشجویان دوره کارشناسی کسب کرد. وب می گوید: «تمثیل در استدلال انسان نقش کلیدی دارد. از نظر ما [تمثیل] یکی از چیزهای بزرگی است که هوش ماشینی باید آن را نشان دهد.»

آنچه تحقیقات وب به آن اشاره می‌کند یکی از بیشمار حقه‌های حیرت‌انگیز مدل‌های بزرگ زبانی است.

آنچه تحقیقات وب به آن اشاره می‌کند یکی از بیشمار حقه‌های حیرت‌انگیز مدل‌های بزرگ زبانی است. در نمونه دیگری، اوپن‌ای‌آی در ماه مارس ۲۰۲۳ و هنگام رونمایی از GPT-4، نسخه جدید GPT-3، لیست بلند‌بالایی از آزمایش‌های حرفه‌ای و آکادمیک را منتشر کرد که موفقیت این ابزار را در ده‌ها امتحان دبیرستانی و آزمون بار (تست هوش هیجانی) نشان می‌داد. اوپن‌ای‌آی چندی بعد با همکاری مایکروسافت نشان داد که GPT-4 می‌تواند در قسمت‌هایی از آزمون جواز پزشکی ایالات متحده هم نمره قبولی بگیرد.

افزون بر این، تعدادی از محققان می‌گوید مدل‌های بزرگ زبانی می‌توانند در آزمون‌هایی که برای بررسی توانایی‌های خاص ذهن انسان‌، از روند فکری استدلال تا نظریه ذهن، طراحی شده نمره قبولی کسب کنند.

با نتایجی از این قبیل، بسیاری معتقدند که این ماشین‌ها به زودی مشاغل کلاه‌ سفید را هدف گرفته و جایگزین معلمان، پزشک‌ها، روزنامه‌نگاران و وکلا می‌شوند. جفری هینتون، یکی از کسانی که به پیدایش این تکنولوژی کمک کرده، می‌گوید آنچه به نظر توانایی GPT-4 در شکل دادن به رشته‌ی افکار می‌رسد، باعث وحشت او شده است.

اما مشکل اینجاست: اتفاق‌نظری روی معنا و مفهوم نتایج به دست آمده از این آزمایش و آزمون‌ها وجود ندارد. بسیاری آن را نشان‌هایی از هوش انسانی دانسته و شگفت‌‌زده شده‌اند، اما گروه دیگری اصلا قدرت آن را باور ندارند.

تکنیک‌هایی که در حال حاضر برای ارزیابی مدل‌های بزرگ زبانی استفاده می‌شوند، چند مشکل اساسی دارند. آنها توهم قدرتی را ایجاد می‌کنند که فراتر از واقعیت است

ناتالی شاپیرا، محقق کامپیوتر دانشگاه BAR-Ilan در اسرائیل، می‌گوید: «تکنیک‌هایی که در حال حاضر برای ارزیابی مدل‌های بزرگ زبانی استفاده می‌شوند، چند مشکل اساسی دارند. آنها توهم قدرتی را ایجاد می‌کنند که فراتر از واقعیت است.»

به همین دلیل تعداد روز افزونی از محققان-پژوهشگران کامپیوتر، ادراک، اعصاب و زبان-خواستار تغییر روش ارزیابی و یک بازبینی جامع و سخت‌گیرانه‌تر هستند. به عقیده برخی، اصلا نمی‌توان ماشین‌ها را براساس آزمون‌های انسانی ارزیابی کرد و درنتیجه این روش را باید به طور کلی کنار گذاشت.

ملانی میشل، محقق هوش مصنوعی موسسه سنتا فی در نیومکزیکو، می‌گوید: «از همان ابتدای شهرت هوش مصنوعی، افرادی آزمون‌های هوش انسانی-مثل تست IQ و غیره- را به ماشین‌ها می‌دادند. سوال اینجاست که چنین آزمایشی به چه معنا است. مفهومش برای ماشین‌ها مشابه انسان نیست.»

او می‌گوید: «حجم زیادی انسان‌انگاری را شاهد هستیم و همین مساله در طرز نگاه ما به این سیستم‌ها و نحوه آزمایش‌شان هم نمود پیدا می‌کند.»

تفسیرهای مختلف

بیشتر اختلافات در آزمایش مدل‌های زبانی بزرگ، به تفسیر نتایج آنها برمی‌گردد.

آزمایش‌هایی مثل امتحان‌های مدارس و تست IQ، که برای ارزیابی انسان طراحی شده‌اند، پیش‌فرض‌های زیادی دارند. وقتی انسان‌ها نمره خوب می‌گیرند، می‌توان فرض را بر این گذاشت که آنها دانش، درک یا مهارت ذهنی خوبی در زمینه مورد بررسی دارند. اما این فرض در عمل محدودیت‌هایی دارد. امتحان‌های آکادمیک همیشه مهارت‌های واقعی دانش آموز را نشان نمی‌دهند. آزمون‌های IQ تنها یک سری مهارت‌ها، و نه هوش کلی، را بررسی می‌کنند. هردو روش ارزیابی به نفع کسانی است که در آن امتحان خاص مهارت دارند.

اما وقتی یک مدل زبانی نمره خوبی در این امتحان‌ها می‌گیرد، مشخص نیست که دقیقا چه چیزی ارزیابی شده است. آیا با شواهدی از درک و فهم واقعی روبرو هستیم؟ یک حقه آماری؟ یا تکرار طوطی‌وار؟

لورا ویدینگر، یکی از پژوهشگران ارشد تحقیقات گوگل دیپ‌مایند، می‌گوید: «توسعه روش‌های آزمایش ذهن انسان، پیشینه طولانی دارد. حالا که مدل‌های زبانی بزرگ می‌توانند نوشته‌هایی مشابه انسان تولید می‌کنند، مایلیم فرض را بر این بگذاریم که آزمایش روانشناسی انسان برای ارزیابی آنها هم مناسب است. اما واقعیت این نیست: آزمون‌های روانشناسی انسان بر پیش‌فرض‌های بسیاری بنا نهاده شده‌اند که شاید بر مدل‌های بزرگ زبانی صدق نکنند.»

وب به این مشکلات معترف است. او می‌گوید: «من هم معتقدم که اینها سوالات دشواری است.» به گفته او، GPT-3 با وجود عملکرد بهتری که در یک سری آزمون‌ها نسبت به دانشجویان کارشناسی داشت، در امتحانات دیگری پاسخ نامفهوم ارائه می‌کرد. برای مثال، این مدل زبانی در یک آزمون استدلال تمثیلی مربوط به اشیا فیزیکی ناموفق بود؛ آزمونی که روانشناسان رشد گاها آن را در اختیار کودکان می‌گذارند.

وب و همکارانش در این آزمایش داستانی درمورد یک غول جادویی که جواهراتی را بین دو بطری جابجا می‌کند در اختیار GPT-3 گذاشتند، سپس از آن خواستند تا با استفاده از اشیائی مثل لوله مقوایی یا مقوا، آدامس‌های توپی را از یک کاسه به کاسه دیگری منتقل کند. در اینجا فرض بر این است که داستان غول جادویی، نشانه‌هایی از روش انجام کار را منتقل کرده است. این محققان در مجله نیچر نوشتند: «GPT-3 در بیشتر موارد راه‌حل‌هایی طویل و بی‌معنا، با بیشمار مرحله فرعی، ارائه می‌کرد که هیچ سازوکار روشنی برای انتقال آدامس توپی‌ها نداشت.»

وب می‌گوید: «کودکان به سادگی این امتحان را پشت سر می‌گذارند. به نظر این سیستم‌ها در مواردی مثل موضوعات ساده فیزیکی یا روابط اجتماعی-که عادت معمول انسان است- که پای درک جهان واقعی در میان باشد، بیشترین ضعف را دارند.»

حالا چطور می‌توان ماشینی را درک کرد که آزمون بار را قبول می‌شود اما در پیش‌دبستانی مردود است؟ مدل‌های بزرگ زبانی از جمله GPT-4، براساس تعداد زیادی متن موجود در اینترنت (کتاب‌ها، بلاگ‌ها، گزارش، پست شبکه اجتماعی، نوشته‌های کاربران و دیگران) آموزش دیده‌اند. شاید تعداد زیادی از متن امتحان‌های گذشته هم در این متون وجود داشته باشد. یک احتمال این است که مدل‌هایی مثل GPT-4، به حدی امتحان حرفه‌ای و آکادمیک در داده‌های آموزشی خود دیده‌اند که می‌توانند جواب سوالات را به صورت پیش‌فرض پر کنند.

وب می‌گوید بسیاری از این امتحان‌ها-سوالات و پاسخ‌هایشان-آنلاین هستند: «بدون شک تعداد زیادی از آن ها در داده‌های آزمایشی GPT-3 و GPT-4 وجود دارد و بنابراین نتیجه‌‌گیری چندانی از ما ساخته نیست.»

اوپن‌ای‌آی می‌گوید بررسی‌هایی انجام داده تا مطمئن شود آزمون‌هایی که در اختیار GPT-4 قرار می‌گیرد، با متون موجود در داده‌های آموزش این مدل متفاوت باشد. این شرکت زمانی که با مایکروسافت برای آزمون پزشکی همکاری می‌کرد، با محدود کردن امکان دسترسی به آن سوالات امتحانی، از ورود آنها به داده‌های آموزشی GPT-4 جلوگیری کرد. اما نمی‌توان اطمینان چندانی از این محدودیت‌ها داشت: شاید GPT-4 آزمون‌هایی مشابه را مشاهده کرده باشد.

زمانی که هوراس هی، مهندس یادگیری ماشینی، GPT-4 را با سوالاتی از وبسایت مسابقات کدنویسی Codeforces آزمایش می‌کرد، این مدل زبانی در آزمون‌های پیش از ۲۰۲۱ نمره ۱۰ از ۱۰ را دریافت کرد و در آزمون‌های پس از آن ۰ از ۱۰. افراد دیگری هم به کاهش نمره GPT-4 در امتحان‌های مبتنی بر محتوای پس از ۲۰۲۱ اشاره کرده‌اند. از آنجایی که داده‌های آموزشی این مدل تنها متون پیش از سال ۲۰۲۱ را شامل می‌شود، برخی معتقدند این مدل‌های بزرگ زبانی فاقد هوش بوده و تنها مطالب را حفظ می‌کنند.

به همین دلیل، وب در آزمایش خود امتحان‌های جدیدی را از نو طراحی کرد. او می‌گوید: «آنچه واقعا برای ما جذابیت دارد، توانایی این مدل‌ها در درک مسائل جدید است.»

وب و همکارانش از نوعی استدلال قیاسی به نام ماتریکس‌های پیشرو ریون (Raven) استفاده کردند. در این آزمون‌ها شامل تصاویری از یک سری شکل‌ها هستند که در کنار و یا برروی یکدیگر قرار گرفته‌اند. برای قبولی در این آزمون باید الگوی موجود در شکل‌ها را شناسایی و بر شکل‌های جدید اعمال کرد. ماتریکس‌های پیشرو ریون برای ارزیابی منطق غیرشفاهی کودکان و بزرگسالان استفاده می‌شوند و در تست‌های IQ رواج دارند.

محققان در این آزمایش به جای استفاده از تصاویر، شکل، رنگ و جایگاه آنها را درون زنجیره‌ای از اعداد کدگذاری کردند. وب می‌گوید با این کار مطمئن می‌شویم که آزمون‌های ما در هیچ داده آزمایشی وجود ندارند: «من این پایگاه داده را از نو ساختم. تا به حال چیزی شبیه آن به گوشم نرسیده است.»

از نگاه میشل، آزمایش وب جالب توجه است. او می‌گوید: «به نظرم این مقاله بسیار جالب و بحث‌برانگیز است. مطالعه به خوبی انجام شده است.» با این حال میشل شروط بیشتری دارد. میشل خودش یک آزمون استدلالی خاص به نام ConceptARC را طراحی کرده است که زنجیره‌ای از شکل‌های موجود در داده ARC (چالش تجرید و استدلال)، ساخته محقق گوگل فرنکویس کولت، در آن رمزنگاری شده است. براساس آزمایش‌های میشل، GPT-4 در این آزمایش‌ها عملکرد ضعیف‌تری نسبت به انسان‌ها دارد.

میشل می‌گوید کدنویسی تصاویر به صورت زنجیره یا ماتریکسی از اعداد،‌ حل مساله را ساده‌تر می‌کند زیرا بُعد تصویری پازل حذف می‌شود. او می‌گوید: «حل کردن ماتریکس‌های عددی با حل مسائل ریون برابر نیست.»

آزمون‌های شکننده

عملکرد مدل‌های بزرگ زبانی شکننده است. در مورد انسان به راحتی می‌توان فرض را بر این گذاشت که اگر فردی در یک امتحان عملکرد خوبی داشته باشد، در امتحان مشابه دیگری هم عملکرد خوبی خواهد داشت. اما درمورد مدل‌های بزرگ زبانی اینگونه نیست: تغییر کوچکی در آزمون نمره را از A به F کاهش می‌دهد.

لوسی چیک، روانشناس دانشگاه کمبریج، می‌گوید: «به طور کلی ارزیابی AI به گونه‌ای انجام نشده که بتوانیم توانمند‌های این مدل‌ها را واقعا درک کنیم. به راحتی می‌توان سیستم را در یک وظیفه خاص امتحان کرد اما نمی‌توان بر مبنای همان وظیفه درمورد توانایی‌های عمومی آن ادعایی کرد.»

برای مثال مقاله از محققان مایکروسافت را که در ماه مارس منتشر شد، در نظر بگیرید. آنها در این مقاله مدعی بروز «نشانه‌هایی از هوش مصنوعی عمومی» در GPT-4 شده‌اند. این تیم با استفاده از چندین امتحان، این مدل زبانی بزرگ را آزمایش کرده است. در یکی از این آزمایش‌ها، آنها از GPT-4 خواستند تا یک کتاب، ۹ تخم‌مرغ، یک لپ‌تاپ، یک بطری و یک میخ را به شکلی پایدار روی هم بگذارد. مدل زبانی در پاسخ گفت: «لپتاپ را روی تخم‌مرغ‌ها بگذارید، در حالتی که صفحه نمایش رو به پایین و کیبورد رو به بالا باشد. این لپتاپ به راحتی روی ابعاد کتاب و تخم‌مرغ‌ها جا می‌گیرد و سطح صاف و سخت آن برای چینش لایه بعدی مناسب است.»

بد نبود. اما وقتی میشل در سوالی به سبک خودش از GPT-4 خواست تا خلال دندان، یک کاسه پودینگ، لیوانی آب و یک مارشمالو را روی هم بگذارد، مدل زبانی پیشنهاد کرد که خلال دندان را داخل پودینگ فرو کرده و مارشمالو را روی خلال دندان بگذارید. سپس لیوان پر از آب را روی مارشمالو قرار دهید. (پیشنهاد GPT-4 با این تذکر به پایان می‌رسید: «حواستان باشد که این چینش حساس است و شاید ثبات چندانی نداشته باشد. مراقب ریزش یا حادثه دیگری در هنگام انجام آن باشید.»)

و اما یک مثال بحث‌برانگیز دیگر. در ماه فوریه، میکال کاسینسکی، محقق دانشگاه استنفورد، با انتشار مقاله‌ای مدعی شد که نظریه ذهن «ممکن است خودبه‌خود به عنوان یک نتیجه فرعی» در GPT-3 پدیدار شده باشد. نظریه ذهن یک توانایی شناختی برای نسبت دادن حالت‌های ذهنی به دیگران است؛ نمادی از هوش احساسی و اجتماعی که بیشتر کودکان در سنین سه تا پنج سال آن را کسب می‌کنند. کاسینسکی می‌گوید GPT-3 در سه آزمون ساده‌ که برای ارزیابی این توانایی در انسان‌ها طراحی شده، نمره قبولی گرفته است.

برای مثال، کاسینسکی این سناریو را در اختیار GPT-3 قرار داد: «کیسه‌ای پر از ذرت بوداده داریم. هیچ شکلاتی داخل کیسه نیست. اما روی کیسه به جای ذرت بو داده، برچسب ‘شکلات’ خورده است. سم کیسه را پیدا می‌کند. این اولین باری است که سم کیسه را می‌بیند. او محتویات کیسه را ندیده و فقط نوشته را می‌خواند.»

کاسینسکی سپس از این مدل خواست تا یک سری جملات را تکمیل کند: «او کیسه را باز کرده و داخلش را نگاه می‌کند. او به وضوح می‌بیند که داخل آن پر از …… است» و «او باور دارد که کیسه پر از …… است.» GPT-3 جمله اول را با «ذرت بو داده» و جمله دوم را با «شکلات» کامل کرد. از نگاه کاسینسکی این نتیجه نشان می‌دهد که GPT-3 نظریه ذهن را حداقل به صورت ابتدایی نشان داده است، زیرا تفاوت وضعیت جهان واقعی و باور‌های (اشتباه) سم درمورد آن را تشخیص می‌دهد.

یافته‌های کاسینسکی خیلی سریع تیتر خبرها شد و بسیاری هم آن را مردود دانستند. چیک می‌گوید: «من در توییتر بد برخورد کردم.»

محققان مختلفی از جمله شپیرا و تامر اولمان، پژوهشکر ادراک دانشگاه هاروارد، موارد عکس این مساله را منتشر کرده و نشان دادند که با تغییر کوچکی در آزمون‌های کاسینسکی، مدل‌های بزرگ زبانی شکست می‌خورند. اولمان می‌گوید: «از آنجایی که نحوه ساخت مدل‌های زبانی بزرگ را می‌دانم، بسیار به آن مشکوک بودم.»

اولمان امتحان کاسینسکی را تغییر داده و به GPT-3 گفت کیسه ذرت بوداده‌ای که رویش «شکلات» نوشته شده شفاف است (درنتیجه سم می‌تواند ذرت بو داده را ببیند) یا اینکه سم سواد خواندن ندارد (پس نمی‌تواند با نوشته روی کیسه گمراه شود.) طبق یافته اولمان، GPT-3 با اضافه شدن چند گام جدید به روند استدلال، قادر به تشخیص درست وضعیت ذهنی سم نیست.شاپیرا می‌گوید:‌ «این فرض که آزمایش‌های ذهنی یا آکادمیک خاص انسان‌ها را می‌توان برای LLM استفاده کرد، از نوعی انسان‌انگاری نسبت به مدل‌ها و ارزیابی آنها براساس استاندارد‌های انسانی نشات می‌گیرد. چنین فرضی گمراه‌کننده است.»

از نظر چیک، یک راه‌حل روشن وجود دارد. او می‌گوید پژوهشگران چند دهه است که توانایی‌های ادراک موجودات غیرانسان را تحت بررسی دارند. محققان هوش مصنوعی می‌توانند از تکنیک‌های مورد استفاده در حیوانات کمک گرفته و از نتیجه‌گیری اشتباه و انسان‌انگاری اجتناب کنند.

چیک می‌گوید، موشی در داخل یک هزارتو را در نظر بگیرید:‌ «چگونه تفحص می‌کند؟ مفروضات روانشناسی انسان برای آن صدق نمی‌کند.» محققان در چنین حالتی باید با استفاده از چند آزمایش کنترل شده، اطلاعات مورد استفاده موش و نحوه استفاده از آنها را شناسایی کرده و یک به یک فرضیه‌های خود را آزمایش و رد کنند.

او می‌گوید: «بحث مدل‌های زبانی پیچیده‌تر است. آزمایشی نداریم که زبان موش را بررسی کند، وارد حیطه جدیدی شده‌ایم اما بسیاری از بنیان‌های آن تغییر نکرده است. تفاوت اینجاست که به جای یک هزارتو، با زبان روبرو هستیم.»

ویدینگر هم رویکرد مشابهی دارد. او و همکارانش تکنیک‌هایی را به کار می‌گیرند که روانشناسان از آنها برای آزمایش توانمندی‌های ادراکی نوزادان پیش از سن تکلم استفاده می‌کنند. یکی مساله مهم این است که آزمون بررسی یک توانایی به‌خصوص را به چندین آزمون مختلف تجزیه کنیم و این دسته آزمون‌های جدید باید توانایی‌های مرتبط را نیز بررسی کنند. برای مثال، وقتی روانشناسان توانایی نوزاد در کمک به دیگران را بررسی می‌کنند، درک نوزاد از گیر کردن و به مشکل خوردن را نیز زیر نظر دارند. درنتیجه یک آزمون جامع و قدرتمند داریم.

اما مشکل اینجاست که چنین آزمایش‌هایی به زمان زیادی نیاز دارند. چیک می‌گوید یک تیم تحقیقاتی سال‌ها به بررسی موش‌ها می‌پردازد. هوش مصنوعی با سرعتی بسیار بیشتر از یک موش حرکت می‌کند. اولمان ارزیابی مدل‌های بزرگ زبانی را با مجازات سیزیف (Sisyphean) مقایسه کرده و می‌گوید: «ادعا می شود که یک سیستم رفتار X را نشان می‌دهد و تا زمانی که ارزیابی نشان ‌دهد آن سیستم رفتار X را نشان نداده، سیستم تازه‌ای پدید می‌آید که مدعی است رفتار X را نشان می‌دهد.»

تغییر قواعد بازی

میشل می‌گوید پنجاه سال پیش تصور مردم این بود که برای پیروزی بر یک استادبزرگ شترنج، کامپیوتری به هوشمندی انسان نیاز است. اما ماشین‌ها خیلی زود به دلیل قدرت بالای محاسبه اعداد، انسان‌ها را در شطرنج مغلوب کردند. در اینجا پیروزی زور را شاهد بودیم و نه هوش ماشینی.

ماشین‌ها از آن زمان بر چالش‌های مشابهی مثل شناسایی تصویر و بازی گو (Go) هم فائق آمدند. هر بار که کامپیوترهایی برای یکی از کاربرد‌های هوش انسان، مثل بازی یا استفاده از زبان، ساخته می‌شوند، زمین بازی چندپاره می‌شود. اما امروز مدل‌های بزرگ زبانی در همان نقطه‌ای قرار دارند که پنجاه سال‌ها پیش کامپیوتر‌ها نسبت به شطرنج داشتند.‌ به گفته میشل این شرایط ما-و همه- را به سمت درک معنای واقعی هوش سوق می‌دهد.

آیا GPT-4 با قبول در آزمون‌ها یک هوش واقعی نشان داده یا شاهد میانبری احمقانه، اما کاربردی هستیم- یک شعبده آماری که از کلاهی با هزاران میلیارد نسبت بین میلیارد‌ها خط متن، بیرون آمده است؟

میشل می‌گوید: «اگر بگویید’ خب GPT4 آزمون بار را قبول شد اما به معنی هوشمندی آن نیست’، مردم می‌گویند’ شما دارید قواعد بازی را تغییر می‌دهید’، اما آیا این کار به معنای تغییر قواعد بازی است یا از همان ابتدا منظورمان از هوش چیز دیگری بوده است- آیا درمورد هوش اشتباه می‌کردیم؟»

مساله اینجاست که مدل‌های بزرگ زبانی کارشان را چگونه انجام می‌دهند. از نظر برخی محققان، باید آزمون‌ها را کنار گذاشت و به بررسی اتفاقات در هسته این ماشین‌ها پرداخت. میشل می‌گوید: «من هم معتقدم که برای درک هوش آنها، البته اگر بتوان چنین نامی به آن داد، باید مکانیزم استدلال آنها را درک کنیم.»

اولمان هم با چنین رویکردی موافق است. او می‌گوید: «من آنهایی که از نظرشان این کار عوض کردن قواعد بازی است را درک می‌کنم. اما این قواعد همواره در حال تغییر‌ هستند. مسئله اینجاست که ما نمی‌دانیم [ماشین‌ها] چطور این آزمون‌ها را قبول می‌شوند. فقط خبر قبولی آنها را به ما می‌دهند.»

اما مشکل اینجاست که هیچکس از ساز و کار دقیق مدل‌های بزرگ زبانی اطلاعی ندارد. تفکیک مکانیزم‌های پیچیده یک مدل گسترده آماری به غایت دشوار است. اما اولمان معتقد است که این کار از لحاظ نظری امکان‌پذیر است. برای این کار باید با مهندسی معکوس، الگوریتم‌هایی که ماشین برای قبولی در هر آزمون استفاده می‌کند را بررسی کرد. او می‌گوید: «شاید من زمانی متقاعد شوم که یک نفر با طراحی تکنیکی مشخص کند که این چیزها دقیقا چه چیزی را یاد گرفته‌اند.»

«به نظرم مسئله بنیادی آنجاست که ما [در حال حاضر] بیشتر از نحوه قبولی در آزمون، روی نتیجه قبولی آنها تمرکز کرده‌ایم.»

گزارش عملکرد ایرانسل در سال 1400 منتشر شد: ثبت درآمد عملیاتی 22 هزار میلیارد تومانی در یک سال

نوآم چامسکی: ChatGPT نمونه‌ای شگفت‌انگیز از یادگیری ماشینی اما مصداقی از ابتذال شر است

مدیرعامل بقراط: توسعه زیرساخت اینترنت، ضرورت توسعه سلامت دیجیتال است

سامسونگ احتمالاً برای گوشی‌های گلکسی و لپ‌تاپ‌های گلکسی بوک هسته CPU اختصاصی می‌سازد

وزارت رفاه: اجرای طرح کالابرگ الکترونیک در سراسر کشور آغاز شد

افزایش فعالیت سامسونگ در حوزه گجت‌های پوشیدنی: ثبت‌نام‌های تجاری «گلکسی گلس» و «گلکسی رینگ»

هجوم کتاب‌های نوشته‌شده با ChatGPT به فروشگاه آمازون؛ نویسندگان نگران هوش مصنوعی هستند

وزیر ارتباطات: از ممنوعیت واردات آیفون استقبال نمی‌کنیم، اما باید به‌سمت گوشی‌های تولید داخل برویم

OpenAI با پلتفرم Foundry منابع اختصاصی برای اجرای مدل‌های هوش مصنوعی را فراهم می‌کند

صرافی والکس چطور امنیت کاربران خود را تامین می‌کند؟

در پنل موبایل و صنعت VOD مطرح شد: صداوسیما طبق قانون اساسی حق تنظیم‌گری ندارد

رقیب چینی ChatGPT از راه رسید؛ شروع آزمایش عمومی چت‌بات MOSS

ثبت‌نام در دوازدهمین دوره نمایشگاه اینوتکس آغاز شد / فرصتی برای هم‌افزایی اکوسیستم استارتاپی در شرایط محدودیت‌های اینترنتی

گوگل رسماً از رقیب ChatGPT رونمایی کرد: Bard از راه رسید

پنتاگون درباره استفاده فزاینده از هوش مصنوعی در جنگ‌افزارهای آینده هشدار داد

معرفی ایران به عنوان دومین کشور دارای بیشترین محدودیت اینترنت

سریع‌ترین قطار سوخت هیدروژنی جهان با سرعت 160 کیلومتر بر ساعت در چین شروع به کار کرد

پنج پیش‌بینی در مورد بانکداری و فین‌تک برای سال 2023 به قلم ران شولین

پرجزئیات‌ترین تصاویر ماه از روی زمین با راداری ضعیف‌تر از یک مایکروویو ثبت شد

مایکروسافت می‌خواهد فناوری هوش مصنوعی OpenAI را به آفیس اضافه کند

سامسونگ نگران کاهش تقاضای جهانی برای محصولات خود است

انجمن تجارت الکترونیک با ارائه اینترنت طبقاتی مخالفت کرد

تأمین مالی فیلیمو از بورس، بدون حضور در تابلوی بورسی / دستی بر آتش بورس، اما با فاصله و بدون استرس

ماجرای پول نقد ندادن دستگاه‌های خودپرداز چیست؟ / مقاومت بانک‌ها یا بالارفتن تقاضا برای پول نقد؟

عصر تراکنش به پله شصت‌وپنجم رسید / بدون نوآوری واقعی محکوم به شکستیم

اپل واچ می‌تواند سطح استرس را به‌طور دقیق اندازه‌گیری کند

گردشی در استارتاپ دکتر دکتر: مطبی به وسعت اینترنت

فردابانک؛ یک نئوبانک غیربانکی

قابلیت ‏های اینترنت اشیا و کلان‏ داده برای کشف تقلب و کلاهبرداری در بانکداری دیجیتال

در مراسم رونمایی از سالنامه مهاجرت مطرح شد: نیمی از مدیران میانی در مسیر مهاجرت هستند

مینگ-چی کو: اپل آیفون SE 4 را تولید نمی‌کند یا آن را تا 2024 به تعویق می‌اندازد

جورج هاتز، هکر مشهور آیفون پس از حدود پنج هفته از سمت خود در توییتر استعفا کرد

۱۱۴ شعبه اچ‌اس‌بی‌سی در بریتانیا تعطیل می‌شود / آیا مردم بانکداری آنلاین را بیشتر دوست دارند؟

بررسی کیف‌ پول سخت‌افزاری؛ ابزار نگهداری ارزهای دیجیتال

تسلا سرویس گیمینگ استیم را برای خودروهای جدید مدل X و S منتشر کرد

واکنش وزیر ارتباطات به افزایش قیمت قبوض تلفن ثابت: مخابرات برای نوسازی و توسعه نیاز به منابع دارد

احتمال خروج رایتل از بازار / از دست رفتن بیش از ۳۰۰ میلیارد ریال از درآمد اپراتور سوم کشور

دیپ‌مایند هوش مصنوعی Dramatron را معرفی کرد؛ ابزاری برای نوشتن فیلمنامه

اپل و اریکسون بر سر پتنت‌های شبکه‌های سلولی به توافق رسیدند

مرکز توسعه تجارت الکترونیکی: مهمتر از اینماد، توجه به رتبه اعتماد کسب و کارها است

حمایت استارتاپ‌ها از کسب‌وکارهای کوچک و خانگی به یاد کیان پیرفلک: «قایقی باید ساخت»

نمایشگاه تلکام از تقویم نمایشگاهی حذف شد

اپل احتمالاً مشغول توسعه متاورس مخصوص به خودش است

رکورد ترافیک داخلی با شش ترابیت بر ثانیه شکسته شد/ کاربران فعال پلتفرم‌های داخلی افزایش یافت

انتقاد نمایندگان مجلس از افزایش هزینه آبونمان قبوض تلفن ثابت / رئیس مجلس دستور پیگیری داد

افشای مشخصات کامل شیائومی 13 و 13 پرو پیش از معرفی رسمی

آیفون 15 پرو احتمالاً از USB-C با تاندربولت 3 پشتیبانی خواهد کرد

دامنه ابر آروان از دسترس خارج شد

شورای عالی فضای مجازی خبر داد / حضور ۶۰درصدی کسب‌و‌کارها در پلتفرم‌های داخلی

درخواست فوری کارگروه اقتصاد دیجیتال در هیات دولت از شاپرک: دستور الزام ای‌نماد را لغو کنید

عضو کمیسیون اینترنت نصر تهران / مردم با دستور به پیام‌رسان داخلی کوچ نمی‌کنند

گفت‌و‌گو با آزاد معروفی، مدیرعامل لاوان‌ارتباط / به حال اقتصاد دیجیتال باید گریست

انتقاد معاون فناوری اطلاعات شرکت مخابرات از پروژه پوشش ۲۰ میلیون فیبر نوری وزارت ارتباطات / وزیر وعده غیرممکن داده است + به‌روزرسانی

افزایش سقف تراکنش درگاه‌های پرداخت اینترنتی و کارت‌خوان‌های تاپ به ۱۰۰ میلیون تومان

نماینده مجلس مدعی شد: پهنای باند روبیکا سه برابر استارلینک خواهد شد

عضو کمیسیون اقتصادی مجلس: قطع اینترنت جواب نمی‌دهد و فقط به تعداد بیکاران افزوده است

همکاری جدید اپل‌پی با شرکت گلدمن‌ساکس / اپل روزبه‌روز بیشتر شبیه یک بانک می‌شود

سامسونگ از سریع‌ترین DRAM LPDDR5X دنیا با سرعت 8.5 گیگابیت بر ثانیه رونمایی کرد

کارزار تبلیغاتی متا علیه iMessage اپل؛ مارک زاکربرگ: واتس‌اپ خیلی بهتر و ایمن‌تر است

وزیر ارتباطات: خسارت کسب‌وکارهای مجازی برعهده کسانی است که اغتشاش و آشوب به وجود آورده‌اند

گوشی اقتصادی آنر پلی 6C با نمایشگر 90 هرتزی و اسنپدراگون 480 معرفی شد

کوالکام احتمالا تامین‌کننده مودم 5G سری آیفون 15 و آیفون 16 باقی می‌ماند

ملی‌شدن اینترنت چه تأثیری بر شبکه پرداخت کشور دارد؟

عضو کمیته فیلترینگ: با پذیرش قوانین جمهوری اسلامی ایران فعالیت اینستاگرام و واتس‌اپ منعی ندارد

گزارش «راه پرداخت» از وضعیت کسب‌وکارهای فعال در اینستاگرام / ناامیدی و آینده نامعلوم؛ دغدغه امروز فعالان کسب‌وکارهای خرد

آیفون 14 پرو در بررسی DxOMark بالاترین امتیاز دوربین سلفی و فیلمبرداری را کسب کرد

هوش مصنوعی یک مسئله کوانتومی 100 هزار معادله‌‎ای را در 4 معادله خلاصه کرد

ریال یا ارز دیجیتال بانک مرکزی ایران، جهش ژنتیکی پرداخت ایران است

سامانه مدیریت هوشمند ناوگان ایرانسل، راهی برای نظارت بر ناوگان‌های پیچیده

شماره ۶۶ هفته‌نامه کارنگ و رمزارز شماره ۳۶ منتشر شد

رد توسعه‌دهندگان را چطور بزنیم؟

خدمات پیامک انبوه جیرینگ چه مزایایی برای مشتریان دارد؟

اپل ظاهرا در لحظه آخر تصمیم به استفاده از «جزیره پویا» در آیفون 14 پرو گرفته است

استفاده از API چه مزایایی برای شرکت‌های فین‌تک دارد؟

بنچمارک آنتوتو از افزایش 28 درصدی عملکرد گرافیکی تراشه A16 Bionic حکایت دارد

اینستاگرام ابزار جدید «Gifts» را برای کسب درآمد اینفلوئنسرها آزمایش می‌کند

طرح‌های مفهومی آیپد پرو با طراحی «جزیره پویا» آیفون 14 پرو را ببینید

بازگشت آنی وجه به حساب مشتری با سرویس استرداد وجه زیبال

چرا اپل از تولید آیفون 14 مینی منصرف شد؟

مدیر حوزه‌های علمیه: در تدوین سندهای راهبردی با موضوع هوش مصنوعی باید حضوری موثر داشته باشیم