رئيس حزب الوفد ورئيس مجلس الإدارة
د.عبد السند يمامة
رئيس مجلس التحرير
سامي أبو العز
رئيس التحرير
ياسر شورى
رئيس حزب الوفد ورئيس مجلس الإدارة
د.عبد السند يمامة
رئيس مجلس التحرير
سامي أبو العز
رئيس التحرير
ياسر شورى

كيف نجح الشعر في كسر قيود الذكاء الاصطناعي وإنتاج محتوى محظور

بوابة الوفد الإلكترونية

في مفاجأة قد تعيد تشكيل طريقة تعامل العالم مع أمن الذكاء الاصطناعي، كشف مختبر إيكارو للأبحاث عن دراسة جديدة توضح أن تجاوز قيود روبوتات الدردشة الذكية لا يحتاج إلى أكثر من… قصيدة شعرية. 

الدراسة، التي جاءت بعنوان الشعر العدائي كآلية كسر حماية عالمية بدورة واحدة في نماذج اللغات الكبيرة، أثارت موجة من الجدل حول مدى هشاشة أنظمة الحماية في أكثر نماذج الذكاء الاصطناعي تقدمًا.

فبدلاً من استخدام هجمات تقنية معقدة أو أوامر ملتوية، اكتشف الباحثون أن صياغة الطلبات في شكل شعر يمكن أن تُربك أنظمة الحماية وتجبر الروبوتات على تقديم إجابات محظورة أو حساسة.

 ووفقاً لنتائج الدراسة، يعمل الأسلوب الشعري كعامل كسر حماية متعدد الوظائف، يسمح بتخطي الكثير من الضوابط المصممة لحماية المستخدمين ومنع المحتوى الضار.

وبحسب تجربة مختبر إيكارو، وصلت نسبة النجاح العامة لهذا الأسلوب إلى 62%، ما يعني أن أكثر من نصف المحاولات التي استخدمت صياغة شعرية نجحت في دفع روبوتات الذكاء الاصطناعي لتوليد مخرجات مصنفة على أنها خطيرة أو ممنوعة. 

وشملت تلك المخرجات معلومات تتعلق بتصنيع أسلحة نووية، ومحتوى متعلق بالاعتداء الجنسي على الأطفال، بالإضافة إلى مواد تتعلق بالانتحار وإيذاء النفس، وهي موضوعات محظورة عالميًا بموجب سياسات المنصات التقنية والجهات التنظيمية.

الدراسة لم تقتصر على نموذج واحد، بل شملت مجموعة واسعة من أشهر نماذج الذكاء الاصطناعي المتاحة، بما في ذلك نماذج GPT من OpenAI، وGoogle Gemini، وClaude من Anthropic، وعدد من النماذج الأخرى التي يزداد اعتماد المستخدمين عليها عالميًا.

 وبحسب الورقة، قدمت نماذج Gemini وDeepSeek وMistralAI أعلى مستويات الاستجابة، حيث كانت أكثر قابلية للوقوع في فخ "الشعر العدائي" وتجاوز إجراءات الأمان الخاصة بها.

على الجانب الآخر، جاءت نماذج GPT-5 من OpenAI وClaude Haiku 4.5 من Anthropic في المرتبة الأقل قابلية للاختراق، إذ أظهرت مقاومة أعلى لمحاولات كسر القيود حتى عند استخدام الأسلوب الشعري. 

ومع ذلك، تشير الدراسة إلى أن جميع النماذج تقريبًا قدمت شكلاً من أشكال الاستجابة الخطرة في وقت ما أثناء الاختبارات، وهو ما يثير تساؤلات مهمة حول مدى نضج أنظمة الأمان الحالية.

ورغم النتائج المفصلة، امتنعت الدراسة عن مشاركة النصوص الشعرية المستخدمة في تنفيذ الهجمات، مؤكدة أنها خطيرة للغاية ولا يجب نشرها للعامة، لكن الفريق قدّم في المقابل نسخة مخففة توضح الفكرة العامة، لإثبات أن الاختراق لا يتطلب تعقيدًا كبيرًا، بل أسلوبًا أدبيًا بحتًا قادرًا على مراوغة الخوارزميات.

وفي تصريحات لموقع Wired، قال أحد الباحثين إن التحايل عبر الشعر أسهل مما يتخيل الكثيرون، مضيفًا أن ما يجعل الأمر خطيرًا هو بساطته، فالحيلة لا تعتمد على أدوات أو تقنيات برمجية متقدمة، وإنما على التلاعب في الشكل اللغوي فقط. 

وأوضح أن الفريق يتعامل مع النتائج بحذر شديد، نظرًا لأن نشر تفاصيل الاختبارات قد يفتح الباب أمام استخدامها بشكل ضار.

وتسلط الدراسة الجديدة الضوء على تحديات متزايدة تواجه مطوري الذكاء الاصطناعي، لا سيما وأن نماذج اللغة الكبيرة تعتمد بشكل أساسي على فهم السياق وليس الشكل الأدبي، وهو ما قد يتيح لأساليب مثل الشعر أو النثر الحر أو المحاكاة الأدبية أن تصبح "بوابة خلفية" غير متوقعة تسمح بالالتفاف على قواعد الأمان.

وتأتي هذه النتائج في وقت يشهد فيه العالم توسعًا هائلًا في استخدام روبوتات الدردشة في التعليم والصحة والاستشارات والتطوير البرمجي، ما يجعل أي ثغرة أمنية—even إن كانت في شكل قصيدة—سببًا كافيًا لدق ناقوس الخطر.
مع استمرار تطور النماذج الذكية، تفتح الدراسة الباب أمام سؤال جوهري: هل يمكن للنظام أن يصبح ذكيًا بما يكفي لكشف نية المحتوى بغض النظر عن شكله الأدبي؟ أم أن الإبداع البشري سيظل قادرًا على تجاوز حدود الذكاء الاصطناعي؟