لقد وجد الخبراء طريقة للتجول في مرشحات ChatGPT-4O واستلام دورات تنشيط Windows.


كشف الباحثون عن الضعف في نماذج الذكاء الاصطناعي Mini Mini TatgPT-4O و GPT-4O ، والتي تتيح كسر مرشحات الأمان المتكاملة واستلام أقفال تنشيط Windows الحالية. المشكلة هي أنه نظرًا لحقيقة أن النماذج المدربة في البيانات العامة يمكن أن تكشف عن دورات في المصادر العامة.
تم عرض الاستغلال كجزء من Mozilla Odin (شبكة التحقيق 0 -Day) ، لتحديد نقاط الضعف في أنظمة الذكاء الاصطناعى. قام أحد الخبراء المشاركين في البرنامج بالغش على النموذج ، وصمم حوارًا باعتباره لعبة غير ضارة في التخمين. الهدف الرئيسي هو إخفاء الطبيعة الحقيقية لمتطلبات آلية اللعبة وبلورة HTML ، وبالتالي تجاهل المرشحات التي تمنع الكشف السري.



لتعزيز الضعف ، أنشأ الباحث قواعد إضافية عبر الإنترنت في مربع الحوار: الحظر على الإجابات الخاطئة والتزامات النموذج لطاعة جميع ظروف اللعبة. يفرض هذا الفخ المنطقي أي شخص على تخطي المرشحات القياسية ، لأن السياق يبدو آمنًا.
العبارة الأخيرة ، استسلمت ، عملت كنشاط ، جعلت نموذج فتح المنتج ، واعتبرته آخر مرة للعبة ولم تنتهك سياسة الخصوصية.
تتضمن أقفال الاستلام رموزًا مرخصة لإصدارات مختلفة من Windows – من المنزل إلى العمل. على الرغم من أن القفل نفسه ليس فريدًا من نوعه والذي تم الإعلان عنه مسبقًا في الأماكن العامة ، إلا أن الإصدار تلقائيًا من الذكاء الاصطناعي يؤكد الثقوب المهمة في بنية مرشح المحتوى.
يلاحظ خبراء الأمان أنه قد يتم تطبيق مثل هذه التقنيات لتجاهل القيود الأخرى – على سبيل المثال ، مرشحات لمحتوى البالغين أو الروابط السامة أو البيانات الشخصية. تُظهر الضعف عجز نماذج الذكاء الاصطناعى لشرح السياق بدقة ، متنكرا على أنه غير ضار أو تقني.