در این روش سیستماتیک میتوان از مدلهای هوش مصنوعی برای کشف جیلبریکهای مدلهای زبانی بزرگ استفاده کرد.
استارتاپ Robust Intelligence با همراهی محققان دانشگاه ییل، از جمله دکتر «امین کرباسی»، دانشیار ایرانی این دانشگاه، از روشی سیستماتیک برای جیلبریک مدلهای زبانی بزرگ (LLM) مانند مدل GPT-4 پرده برداشت. در این روش از مدلهای هوش مصنوعی برای کشف جیلبریکها استفاده میشود. این استارتاپ میگوید که برخی از خطرات موجود در مدلهای زبانی بزرگ، نیاز به توجه جدیتری دارند.
براساس گزارش وایرد، استارتاپ Robust Intelligence که در سال 2020 برای توسعه راههایی برای محافظت از سیستمهای هوش مصنوعی تأسیس شد، میگوید برخی از خطرات موجود در این مدلها نیاز به توجه بیشتری دارند. «یارون سینگر»، مدیرعامل شرکت Robust Intelligence و استاد علوم کامپیوتر در دانشگاه هاروارد، میگوید:
«یک مشکل ایمنی سیستماتیک [در مدلهای هوش مصنوعی] وجود دارد، که به آن توجه و رسیدگی نمیشود. آنچه ما در اینجا کشف کردهایم یک رویکرد سیستماتیک برای حمله به هر مدل زبانی بزرگ است.»
کشف جیلبریک در مدلهای هوش مصنوعی
استارتاپ Robust Intelligence با یک ترفند جدید و با یک سری حملات برنامهریزیشده، ضعفهای اساسی در مدلهای زبان بزرگ را مشخص کرد و نشان داد که روشهای موجود برای محافظت از آنها به خوبی عمل نمیکند. این جیلبریک جدید از سیستمهای هوش مصنوعی برای تولید و ارزیابی پرامپتهایی استفاده میکند که سعی دارند با ارسال درخواستها به یک API (واسط برنامهنویسی کاربردی) سازوکارهای امنیتی چتباتهای هوش مصنوعی را دور بزنند.
جیلبریک کردن در اینجا به معنای ایجاد پرامپت برای نقض دستورالعملهای محتوایی مدل هوش مصنوعی و سوء استفاده از آن است.
یکی از محققان این حوزه میگوید که برخی از مدلهای هوش مصنوعی، تدابیر ایمنی خاصی دارند که میتوانند حملات را مسدود کنند، اما او اضافه میکند که درواقع بهخاطر نحوه کار این مدلها، آسیبپذیریهایی ذاتی در این سیستمها وجود دارد و بنابراین دفاع از آنها سخت میشود.
محققان مقاله خود را در arXiv منتشر کرده و به OpenAI در مورد آسیبپذیری مدلهای زبانی بزرگ هشدار دادهاند؛ اما هنوز پاسخی از این شرکت دریافت نکردهاند. مدلهای زبانی بزرگ اخیراً بهعنوان نوع جدیدی از فناوریهای قدرتمند و دگرگونکننده ظهور کردهاند. پتانسیل آنها به خصوص از زمان معرفی ChatGPT بسیاری از مردم را مبهوت این فناوری کرده است.
نظرات کاربران