لماذا يتطلب تأمين وكلاء الذكاء الاصطناعي نهجاً مختلفاً
إن تأمين وكيل الذكاء الاصطناعي يختلف تماماً عن تأمين التطبيقات التقليدية - ليس لأن مبادئ أمن الشبكات تتغير، ولكن لأن وكلاء الذكاء الاصطناعي يقدمون نمط فشل لا تمتلكه التطبيقات التقليدية: القدرة على التلاعب بهم من خلال المحتوى الذي يعالجونه لاتخاذ إجراءات لم يقصدها مشغلوهم.
يجب أن يعالج الوضع الأمني لوكيل الذكاء الاصطناعي سطحين متميزين للتهديدات في نفس الوقت: سطح الهجوم التقليدي للبنية التحتية التي يعمل عليها الوكيل - الشبكات، وبيانات الاعتماد، وواجهات برمجة التطبيقات، ومخازن البيانات - وسطح الهجوم الخاص بالذكاء الاصطناعي الذي ينشأ عن قدرة الوكيل على تفسير مدخلات اللغة الطبيعية من مصادر غير موثوقة والعمل بناءً عليها. إن النهج الأمني الذي يعالج السطح الأول فقط ويتجاهل الثاني قد أمّن الحاوية بينما ترك المحتويات عرضة للاستغلال.
في التطبيق التقليدي، يتطلب هجوم حقن SQL من المهاجم فهم مخطط بيانات التطبيق وصياغة استعلام صحيح من الناحية النحوية. أما في وكيل الذكاء الاصطناعي، يتطلب هجوم حقن التوجيه فقط القدرة على تضمين نص في أي مدخل يعالجه الوكيل - مستند مرفوع، أو صفحة ويب يستردها الوكيل، أو بريد إلكتروني يقرأه، أو سجل قاعدة بيانات يستعلم عنه. يتسع سطح الهجوم مع كل مصدر بيانات يمكن للوكيل الوصول إليه.
يستهدف هذا الدليل كلا السطحين معاً - لأن فرق أمن المؤسسات وفرق هندسة الذكاء الاصطناعي غالباً ما تقسم هذه المسؤوليات بطرق تترك نقطة التقاطع دون مالك محدد. الخطوات أدناه مكتوبة لكلا الجمهورين في نفس الوقت.
نموذج تهديد وكيل الذكاء الاصطناعي — ما الذي تدافع ضده
قبل تنفيذ أي ضابط أمني، قم برسم خريطة للتهديدات المحددة ذات الصلة بنشر وكيل الذكاء الاصطناعي الخاص بك. تغطي أزواج التهديد/الدفاع التالية ناقلات الهجوم ذات التأثير الأكبر على المؤسسات في أنظمة الذكاء الاصطناعي الوكيلة الإنتاجية.
ما يستهدفه المهاجمون في وكلاء الذكاء الاصطناعي
- حقن التوجيه عبر محتوى المستندات، البريد الإلكتروني، واسترجاع الويب
- كسر الحماية (Jailbreak) من خلال التلاعب بسجل المحادثة
- إساءة استخدام الأدوات — إجبار الوكيل على استدعاء واجهات برمجة تطبيقات خارج نطاقه
- تسريب البيانات من خلال تنسيق الاستجابة المصمم
- تصعيد الامتيازات عبر تفاعلات الوكلاء المتسلسلة
- تسميم الذاكرة في الوكلاء ذوي السياق المستمر
- هجمات سلسلة التوريد على تبعيات أدوات الوكيل
ما يعالجه الأمان الفعال
- تنقية المدخلات وكشف حقن التوجيه في جميع نقاط الإدخال
- التحقق من صحة سجل المحادثة وفحوصات سلامة السياق
- تفويض الأدوات بشكل صريح مع إنفاذ أقل الامتيازات
- تصفية المخرجات لمنع أنماط تسريب البيانات
- عزل الوكيل لمنع وراثة الامتيازات بين الوكلاء
- ضوابط الوصول إلى مخزن الذاكرة والتحقق من سلامته
- تثبيت التبعيات والتحقق من سلامة أدوات الوكيل
يتم اتخاذ قرار أمن وكيل الذكاء الاصطناعي الوحيد الأكثر أهمية قبل كتابة السطر الأول من الكود: ما إذا كان سيتم التعامل مع حقن التوجيه كمشكلة تحقق من المدخلات (يمكن حلها في طبقة التطبيق) أو كقيد معماري (يتطلب فرضاً على مستوى البنية التحتية). تجد المؤسسات التي تتعامل معها كمشكلة تطبيق باستمرار أن فلاترها يتم تجاوزها بواسطة تقنيات حقن جديدة. أما المؤسسات التي تتعامل معها كقيد معماري فتصمم وكلاء حيث لا يمكن للحقن الناجح أن يترجم إلى إجراء غير مصرح به — لأن التحقق من التفويض يحدث في طبقة البنية التحتية بغض النظر عما ينتجه التفكير الداخلي للوكيل.
ست خطوات لتأمين وكلاء الذكاء الاصطناعي في الإنتاج
منع حقن التوجيهات
طبقة المدخلات — ضابط ذو أولوية قصوىيجب تنفيذ منع حقن التوجيه في كل نقطة يدخل فيها محتوى غير موثوق به إلى سياق الوكيل — وليس فقط في واجهة تفاعل المستخدم. في وكلاء المؤسسات الإنتاجية، يصل المحتوى غير الموثوق به عبر قنوات متعددة: مدخلات المستخدم، والمستندات المستردة في خطوط أنابيب RAG، واستجابات واجهة برمجة التطبيقات من الأنظمة الخارجية، ومحتوى البريد الإلكتروني الذي يقرأه الوكيل، وسجلات قاعدة البيانات التي يستعلم عنها. تتطلب كل قناة منطق الكشف الخاص بها لأن تقنية الحقن تختلف باختلاف القناة.
منهجية تنقية المدخلات: تجريد أو ترميز أنماط تنسيق التعليمات من المدخلات غير النظامية. اكتشاف وتحديد المحتوى الذي يحاول تجاوز تعليمات النظام باستخدام أنماط الحقن الشائعة — أوامر إعادة تعيين الأدوار، وعلامات حدود التعليمات، وتسلسلات التعليمات المشفرة. استخدم نموذج تصنيف مخصص تم تدريبه على أنماط الحقن كطبقة كشف أولية، مع فلاتر قائمة على القواعد كفلترة مسبقة سريعة قبل استدعاء المصنف.
// تنقية المحتوى الخارجي قبل حقنه في سياق الوكيل function sanitiseForAgentContext(rawContent, sourceType) { // 1. تجريد أنماط الحقن المعروفة const stripped = stripInjectionPatterns(rawContent); // 2. تصنيف مخاطر الحقن (استدعاء نموذج التصنيف) const riskScore = injectionClassifier.score(stripped); // 3. تطبيق مستوى الثقة الخاص بالمصدر const trustLevel = TRUST_LEVELS[sourceType]; // user < api < internal if (riskScore > THRESHOLD[trustLevel]) { auditLog.record({ event: 'injection_detected', source: sourceType }); throw SecurityError('تم اكتشاف نمط حقن في ' + sourceType); } // 4. التغليف بعلامات حدود الثقة الصريحة return wrapWithTrustBoundary(stripped, sourceType); }
- تنفيذ كشف الحقن عند كل نقطة استيعاب للمحتوى — وليس فقط مدخلات المستخدم
- تنقية خط أنابيب RAG لمحتوى المستندات المستردة قبل حقنه في سياق النموذج
- التحقق من صحة وتنقية استجابات واجهات برمجة التطبيقات الخارجية قبل معالجتها من قبل الوكيل
- توجيه أحداث كشف الحقن إلى المراقبة الأمنية مع تحديد أولوية التنبيه المناسبة
- إعادة تدريب مصنف الحقن ربع سنوي ضد تقنيات التجاوز الجديدة الملاحظة في الإنتاج
تصميم الوصول بأقل الامتيازات
طبقة التفويض — الأساس الهيكلي للأمانيعني تصميم الوصول بأقل الامتيازات لوكلاء الذكاء الاصطناعي منح كل وكيل الحد الأدنى من الوصول إلى الأدوات وواجهات برمجة التطبيقات والبيانات والأنظمة المطلوبة لإكمال المهام الموكلة إليه — ولا أكثر. هذا هو الضابط الهيكلي الذي يحد من نطاق التأثير لأي فشل أمني. لا يمكن لحقن التوجيه الذي ينجح في التلاعب بتفكير الوكيل الوصول إلى أنظمة خارج النطاق المصرح به للوكيل إذا تم فرض مبدأ أقل الامتيازات في طبقة البنية التحتية بدلاً من تعليمات الوكيل.
مبادئ التصميم: حدد قائمة أدوات الوكيل ونطاق الوصول إلى البيانات صراحة في تكوين التفويض قبل كتابة أي كود. يجب أن يكون التفويض إضافياً — يبدأ الوكيل بصفر أذونات ويتم إضافة منح صريحة لكل قدرة مطلوبة. لا تحدد التفويض أبداً بالاستبعاد ("يمكن للوكيل الوصول إلى كل شيء باستثناء X") لأن قوائم الاستبعاد مستحيلة الصيانة بشكل شامل مع تطور قدرات النظام.
// بيان تفويض الوكيل — يحدد ما يمكن للوكيل القيام به const agentManifest = { agentId: 'procurement-assistant-v2', tools: { // كل أداة: نطاق صريح، حد معدل الاستخدام، متطلبات الموافقة readPurchaseOrders: { scope: 'read', entities: ['own-dept'], rateLimit: 100 }, createDraftPO: { scope: 'write', requiresHumanApproval: true }, querySupplierDB: { scope: 'read', fields: ['name','contact','rating'] }, sendInternalEmail: { scope: 'send', domains: ['@company.com'] } }, denied: { // رفض صريح — احتياط أمان إضافي externalEmail: true, paymentExecution: true, systemConfig: true }, auditAll: true // تسجيل كل إجراء بغض النظر عن النتيجة };
- تحديد قائمة الأدوات قبل بدء الهندسة — وليس بعد النشر
- التفويض إضافي يبدأ من الصفر — وليس قائماً على الاستبعاد من الوصول الكامل
- تحديد نطاق صريح وحد معدل الاستخدام ومتطلبات الموافقة لكل أداة
- منع وراثة التفويض بين الوكلاء صراحة — لا يمكن للوكلاء منح أذونات لوكلاء آخرين
- مراجعة بيان التفويض من قبل الفريق الأمني قبل التشغيل الفعلي وربع سنوي
حواجز الحماية وعزل التنفيذ
طبقة الاحتواء — تحد من نطاق تأثير الاختراقيضمن عزل البيئة التجريبية (Sandboxing) أنه حتى في حالة اختراق وكيل الذكاء الاصطناعي من خلال حقن التوجيه أو أي تلاعب آخر، يتم احتواء الضرر داخل بيئة الرمل بدلاً من الانتشار إلى أنظمة الإنتاج. بالنسبة للوكلاء الذين يقومون بتشغيل الأكواد، أو معالجة الملفات، أو التفاعل مع الأنظمة الخارجية، فإن عزل البيئة التجريبية هو متطلب إنتاجي غير قابل للتفاوض — وليس تحسيناً أمنياً اختيارياً.
منهجيات العزل حسب نوع الوكيل: يجب أن يعمل الوكلاء الذين يقومون بتشغيل الأكواد في حاويات مؤقتة (ephemeral containers) دون وصول مستمر إلى نظام الملفات، ودون وصول إلى الشبكة باستثناء نقاط النهاية المسموح بها صراحة، ومع حدود صارمة للوقت والموارد. يجب أن يعمل الوكلاء الذين يعالجون المستندات في بيئات قراءة فقط دون وصول للكتابة إلى أي نظام خارج مخزن المخرجات المخصص. يجب أن يتفاعل الوكلاء الذين يتفاعلون مع واجهات برمجة التطبيقات الخارجية من خلال طبقة وكيل (proxy layer) تفرض بيان التفويض وتسجل كل استدعاء قبل توجيهه.
- يعمل وكلاء تشغيل الأكواد في حاويات مؤقتة دون نظام ملفات مستمر وبشبكة محدودة
- يعمل وكلاء معالجة المستندات في بيئات قراءة فقط
- توجيه مكالمات واجهات برمجة التطبيقات الخارجية عبر بوابة تفرض التفويض
- تحديد وفرض حدود موارد البيئة التجريبية — المعالج، الذاكرة، وقت التشغيل
- مراقبة محاولات الهروب من البيئة التجريبية والتنبيه عنها في الوقت الفعلي
- تقييد الاتصال بين الوكلاء بجهات اتصال محددة صراحة
المراقبة في الوقت الفعلي وكشف الشذوذ السلوكي
طبقة الكشف — تحدد الاختراق في بيئة الإنتاجيتطلب وكلاء الذكاء الاصطناعي الإنتاجيون مراقبة سلوكهم — وليس فقط صحة بنيتهم التحتية. لا تكشف مقاييس استخدام المعالج ووقت الاستجابة عن هجوم حقن التوجيه الجاري. تتبع المراقبة السلوكية ما يفعله الوكيل: الأدوات التي يستدعيها، وتكرار ونمط تلك الاستدعاءات، وحجم البيانات التي يصل إليها، وخصائص محتوى مخرجاته — وتقارن كل ذلك بخطوط الأساس المعيارية.
إنشاء خط الأساس: قم بتشغيل الوكيل تحت ظروف خاضعة للإشراف لمدة 2-4 أسابيع قبل التشغيل الفعلي لإنشاء خطوط أساس سلوكية عبر جميع الأبعاد المقاسة. وثق تكرار استدعاء الأدوات المتوقع، وأنماط الوصول النموذجية للبيانات، وتوزيع طول المخرجات، وزمن الاستجابة الطبيعي. في الإنتاج، تؤدي الانحرافات عن خطوط الأساس هذه إلى إطلاق تنبيهات للتحقيق. إن حقن التوجيه الذي يتسبب في استدعاء الوكيل لنقطة نهاية غير معتادة، أو الاستعلام من مخزن بيانات نادراً ما يستخدمه، أو إنتاج مخرجات بأنماط محتوى غير نمطية سيكون قابلاً للكشف مقابل خط أساس مدروس جيداً حتى لو كان الإجراء الفردي مصرحاً به للوكيل تقنياً.
// قياس هذه الأبعاد لكل وكيل إنتاجي const monitoringConfig = { toolCallFrequency: { // تنبيه إذا تم استدعاء أي أداة بمعدل أكبر من ضعف خط الأساس في نافذة 5 دقائق alertThreshold: 2.0, windowSeconds: 300 }, dataAccessVolume: { // تنبيه إذا تم الوصول إلى سجلات تفوق 3 أضعاف خط الأساس في أي جلسة alertThreshold: 3.0, perSession: true }, unusualToolSequence: { // alert on tool call patterns not seen in baseline period detectNovelSequences: true, minNoveltyScore: 0.85 }, outputAnomalies: { // تحديد المخرجات التي تحتوي على أنماط بيانات شخصية أو مؤشرات تسريب piiDetection: true, exfilPatterns: true }, externalCallDomains: { // تنبيه عند أي محاولة اتصال بنطاق خارج القائمة المسموح بها صراحة strictWhitelist: true } };
- إنشاء خطوط الأساس السلوكية تحت ظروف خاضعة للإشراف قبل التشغيل الفعلي
- قياس تكرار استدعاء الأدوات، وحجم الوصول للبيانات، ومحتوى المخرجات
- تحديد متواليات استدعاء الأدوات غير المعتادة للتحقيق بغض النظر عن تفويض الإجراء الفردي
- توجيه تنبيهات المراقبة إلى مركز العمليات الأمنية SOC مع تصنيف الخطورة المناسب
- مراجعة وتحديث تغطية المراقبة عند تغيير نطاق الوكيل أو قائمة أدواته
سجلات التدقيق للتحقق والامتثال
طبقة الأدلة — تدعم الامتثال والتحقيق الجنائييجب أن يولد كل إجراء لوكيل الذكاء الاصطناعي في الإنتاج سجلاً تدقيقاً غير قابل للتعديل — ليس لملء استمارات الامتثال، ولكن لأن سجلات التدقيق هي المورد الجنائي الأساسي عند التحقيق في أي حادث أمني. إن سجل التدقيق الذي يلتقط ما طُلب من الوكيل، وما قرر فعله، وما فعله بالفعل، وما كانت النتيجة يمكن المحقق من إعادة بناء التسلسل الكامل للأحداث وتحديد مكان التلاعب الدقيق وآثاره.
الحد الأدنى لهيكل سجل التدقيق: الطابع الزمني، معرف الوكيل، معرف الجلسة، هاش المدخلات (وليس المدخل الكامل لأسباب تتعلق بالخصوصية)، مسار القرار (الأداة التي اختارها الوكيل ولماذا، بتنسيق منظم)، الإجراءات المتخذة (اسم الأداة، المعاملات، النتيجة)، هاش المخرجات، وأي أحداث حواجز حماية تم إطلاقها أثناء التفاعل. يجب كتابة سجلات التدقيق في مخزن مقاوم للتلاعب — نظام منفصل عن بيئة تشغيل الوكيل — والاحتفاظ بها للفترة المطلوبة. بالنسبة للمؤسسات الهندية، فإن متطلب CERT-In للإبلاغ عن الحوادث خلال ست ساعات يعني أنه يجب أن تكون سجلات التدقيق قابلة للوصول في الوقت الفعلي.
- يولد كل إجراء للوكيل سجل تدقيق منظم — المدخلات، القرار، الإجراء، النتيجة
- كتابة سجلات التدقيق في مخزن مقاوم للتلاعب ومنفصل عن بيئة الوكيل
- توافق فترة الاحتفاظ مع أطر الامتثال المعمول بها (بحد أدنى سنة واحدة)
- معالجة البيانات الشخصية في المدخلات والمخرجات وفقاً لقانون DPDP لعام 2023
- التحقق من الوصول لسجلات التدقيق — وصول للقراءة لفريق الأمن، وكتابة فقط لبيئة التشغيل
- اختبار توفر سجلات التدقيق — يجب أن تكون قابلة للاستعلام خلال دقائق لامتثال CERT-In
نقاط التحقق البشرية للإجراءات عالية التأثير
طبقة الإشراف — خط الدفاع الأخير للإجراءات غير القابلة للتراجعلا تحمل جميع إجراءات وكلاء الذكاء الاصطناعي نفس العواقب. الاستعلام من قاعدة البيانات ذو عواقب منخفضة — فهو قابل للتراجع والتدقيق ومحدود التأثير. إرسال بريد إلكتروني خارجي ذو عواقب متوسطة — فهو محدود النطاق ولكن ليس من السهل التراجع عنه. أما تنفيذ معاملة مالية، أو تعديل سجل قاعدة بيانات إنتاجي، أو إرسال تقرير تنظيمي فهو ذو عواقب عالية — فهو غير قابل للتراجع ومؤثر بشكل مادي. يجب أن تتطلب الإجراءات عالية العواقب موافقة بشرية صريحة قبل تنفيذها، بغض النظر عن مدى ثقة الوكيل في صحة الإجراء.
إطار تصنيف العواقب: حدد فئات العواقب قبل النشر — منخفضة (قابلة للتراجع تماماً، نطاق محدود), متوسطة (قابلة للتراجع بجهد، نطاق متوسط)، عالية (صعبة أو مستحيلة التراجع، تأثير مادي). اربط كل أداة في بيان الوكيل بفئة عواقب. تطلق استدعاءات الأدوات عالية العواقب سير عمل موافقة بشرية: يصف الوكيل الإجراء المقصود، ويقدم مبرراته، وينتظر موافقة شخص مخول. يجب أن يكون لسير عمل الموافقة مهلة زمنية — الإجراءات التي تنتهي مهلتها دون موافقة يتم رفضها وتفشل تلقائياً.
- تحديد فئات العواقب لكل أداة في بيان الوكيل قبل التشغيل الفعلي
- توجيه الإجراءات عالية العواقب لسير عمل موافقة بشرية — لا تنفذ تلقائياً
- مهلة زمنية صريحة لسير عمل الموافقة — رفض الإجراءات التي تنتهي مهلتها
- توفير سياق كافٍ للموافقين البشريين لاتخاذ قرارات مستنيرة — يقدم الوكيل مبرراته
- تسجيل قرارات الموافقة/الرفض في سجل التدقيق مع هوية الموافق
- مراجعة تصنيف فئات العواقب كلما تغيرت قائمة أدوات الوكيل
تصميم واختبار إجراءات تراجع وكلاء الذكاء الاصطناعي
إن إجراء التراجع لوكيل الذكاء الاصطناعي ليس مجرد التراجع عن نشر برمجيات. بل يجب أن يعالج كلاً من حالة نظام الوكيل والآثار اللاحقة لأي إجراءات اتخذها الوكيل المخترق قبل احتواء الحادث. إن تصميم إجراء التراجع قبل دخول الوكيل مرحلة الإنتاج — واختباره قبل الحاجة إليه — هو الفارق بين احتواء خلال 30 دقيقة واستجابة لحادث تستغرق 18 ساعة.
إجراء تراجع وكيل الذكاء الاصطناعي — سبعة عناصر مطلوبة
مسؤوليات فريق الأمن مقابل فريق الهندسة
يقع أمن وكلاء الذكاء الاصطناعي باستمرار بين مهام فرق الأمن وفرق الهندسة — حيث تفترض كل فرقة أن الأخرى تمتلك ضابطاً معيناً، وينتهي الأمر بترك الضابط دون مالك محدد. يحل توزيع المسؤوليات التالي هذا الأمر مباشرة.
يمتلك فريق الهندسة
بيان تفويض الوكيل وقائمة الأدوات — تحديد ما يمكن للوكيل الوصول إليه والقيام به. تنفيذ تنقية المدخلات في جميع نقاط الاستيعاب. توليد سجلات التدقيق داخل قاعدة كود الوكيل. تنفيذ البيئة التجريبية لوكلاء تشغيل الأكواد ومعالجة المستندات. دمج سير عمل موافقة العنصر البشري. اختبار الوكيل بما في ذلك اختبار التوجيه العدائي قبل التشغيل الفعلي.
يمتلك فريق الأمن
مراجعة والموافقة على بيان التفويض قبل التشغيل الفعلي — للتأكد من ملاءمته لمتطلبات أقل الامتيازات. دمج المراقبة الأمنية — توجيه تنبيهات الشذوذ السلوكي للوكيل إلى سير عمل SOC. اختبار اختراق طبقة تطبيق الذكاء الاصطناعي — محاولة التغلب على ضوابط الحقن وضوابط الوصول من منظور المهاجم. ملكية إجراء الاستجابة للحوادث — بما في ذلك وثيقة التراجع واختبار التراجع ربع السنوي. جمع أدلة الامتثال — التحقق من الاحتفاظ بسجلات التدقيق، واتخاذ قرارات الإبلاغ لـ CERT-In، وتقييم قانون DPDP لعام 2023 أثناء الحوادث.
المملوك بشكل مشترك
تصنيف فئات العواقب — تفهم الهندسة ما تفعله كل أداة؛ ويفهم الأمن تداعيات المخاطر. إنشاء خط الأساس للمراقبة السلوكية — تحدد الهندسة الشكل الطبيعي؛ ويحدد الأمن ما يشكل انحرافاً يستدعي التنبيه. تحليل السبب الجذري بعد الحادث وتحسين الضوابط — تنفذ الهندسة الإصلاح؛ ويتحقق الأمن من فعاليته قبل إعادة التنشيط.
الأسئلة الشائعة
تعكس هذه الأسئلة الاستفسارات الأكثر شيوعاً حول أمن وكلاء الذكاء الاصطناعي من مسؤولي أمن المعلومات ورؤساء الامتثال وقادة الهندسة.
يتطلب تأمين وكلاء الذكاء الاصطناعي في الإنتاج ستة ضوابط يتم تنفيذها في طبقات: منع حقن التوجيه في كل نقطة استيعاب للمحتوى باستخدام كشف قائم على التصنيف وتنقية المدخلات؛ تصميم الوصول بأقل الامتيازات حيث يبدأ الوكلاء بصفر أذونات ويتلقون منحاً إضافية لكل قدرة مطلوبة؛ عزل البيئة التجريبية (Sandboxing) لعزل بيئة تشغيل الوكيل عن أنظمة الإنتاج؛ مراقبة سلوكية في الوقت الفعلي مقابل خطوط أساس سلوكية للكشف عن أنماط استخدام الأدوات أو الوصول للبيانات الشاذة؛ تسجيل تدقيق لكل إجراء يتخذه الوكيل في مخزن مقاوم للتلاعب؛ ونقاط تحقق بشرية للإجراءات عالية العواقب التي تتطلب موافقة صريحة قبل التنفيذ. ويجب فرض هذه الضوابط في طبقة البنية التحتية — وليس من خلال تعليمات النموذج — لأن قيود طبقة التعليمات يمكن تجاوزها عن طريق حقن التوجيه.
حقن التوجيه (Prompt Injection) هو هجوم يتم فيه تضمين تعليمات ضارة في المحتوى الذي يعالجه وكيل الذكاء الاصطناعي — مثل المستندات، رسائل البريد الإلكتروني، صفحات الويب، استجابات واجهات برمجة التطبيقات، أو سجلات قواعد البيانات — مما يتسبب في تجاوز الوكيل لتعليماته الأصلية وتنفيذ أوامر يتحكم فيها المهاجم. ويتطلب المنع تنقية المدخلات عند كل نقطة استيعاب للمحتوى: تجريد أنماط الحقن المعروفة، تشغيل المحتوى عبر مصنف حقن مخصص قبل حقنه في سياق النموذج، تطبيق مستويات ثقة خاصة بالمصدر بحيث يتم معاملة المحتوى الخارجي بثقة أقل من المحتوى الداخلي، وتغليف المحتوى الخارجي بعلامات حدود ثقة صريحة تفرضها بنية النموذج. ويجب توجيه أحداث كشف الحقن إلى المراقبة الأمنية كتنبيهات عالية الأولوية.
تصميم الوصول بأقل الامتيازات لوكلاء الذكاء الاصطناعي يعني منح كل وكيل فقط الحد الأدنى من الوصول إلى الأدوات وواجهات برمجة التطبيقات والبيانات والأنظمة المطلوبة لإكمال مهامه الموكلة إليه — مع فرض التفويض في طبقة البنية التحتية بدلاً من تعليمات الوكيل. يكون التفويض إضافياً يبدأ من الصفر: يبدأ الوكيل بدون صلاحيات ويتلقى منحاً صريحة لكل قدرة مطلوبة. ويكون لكل أداة في البيان نطاق محدد وحد معدل استخدام ومتطلبات موافقة. ويتم منع وراثة التفويض بين الوكلاء صراحة. ويقوم فريق الأمن بمراجعة بيان التفويض قبل التشغيل الفعلي وربع سنوي في الإنتاج. يحد هذا التصميم من نطاق تأثير أي فشل أمني — لا يمكن للحقن الناجح الوصول إلى أنظمة خارج نطاق الوكيل المحدد مسبقاً.
تتطلب مراقبة وكلاء الذكاء الاصطناعي في الإنتاج مراقبة سلوكية مقابل خطوط أساس سلوكية — وليس فقط مقاييس صحة البنية التحتية. يتم إنشاء خطوط الأساس خلال 2-4 أسابيع من التشغيل الخاضع للإشراف قبل التشغيل الفعلي، لتوثيق تكرار استدعاء الأدوات المتوقع، أنماط الوصول للبيانات، توزيع طول المخرجات، وأنماط استدعاء النطاقات الخارجية. وفي الإنتاج، تقيس المراقبة تكرار وتسلسل استدعاء الأدوات، وحجم الوصول للبيانات، والمخرجات بحثاً عن بيانات شخصية PII أو أنماط تسريب، ومكالمات واجهات برمجة التطبيقات الخارجية مقابل القائمة المسموح بها. وتطلق الانحرافات عن خطوط الأساس هذه تنبيهات للتحقيق في مركز SOC — حتى لو كان الإجراء الفردي مصرحاً به للوكيل تقنياً.
يعني عزل البيئة التجريبية (Sandboxing) لوكلاء الذكاء الاصطناعي عزل بيئة تشغيل الوكيل عن أنظمة الإنتاج بحيث يتم احتواء الاختراق الناجح داخل البيئة التجريبية بدلاً من الانتشار إلى البنية التحتية الأساسية للمؤسسة. يعمل الوكلاء الذين يقومون بتشغيل الأكواد في حاويات مؤقتة دون نظام ملفات مستمر وبوصول محدود للشبكة بنقاط نهاية محددة وحدود موارد صارمة. ويعمل وكلاء معالجة المستندات في بيئات قراءة فقط. وتمر مكالمات واجهات برمجة التطبيقات الخارجية عبر بوابة تفرض التفويض وتتحقق من كل استدعاء مقابل بيان الوكيل قبل توجيهه. ويتم تقييد الاتصال بين الوكلاء بواجهات محددة صراحة، مع مراقبة محاولات الهروب من البيئة التجريبية والتنبيه عنها في الوقت الفعلي.
يجب تصميم إجراءات تراجع وكلاء الذكاء الاصطناعي قبل التشغيل الفعلي واختبارها ربع سنوي — وليس ارتجالها أثناء الحادث. وتشمل إجراءات التراجع الفعالة سبعة عناصر: محفز عزل فوري يزيل الوكيل من أنظمة الإنتاج في إجراء واحد؛ تحديد آخر حالة جيدة معروفة باستخدام تكوينات خاضعة للتحكم في الإصدار؛ تقييم تأثير الإجراءات باستخدام سجل التدقيق لتحديد ما فعله الوكيل المخترق؛ مراجعة تأثير البيانات لتحديد ما إذا تم الوصول لبيانات حساسة أو تسريبها؛ أدلة عكس الإجراءات مسبقة التوثيق لكل إجراء عالي العواقب يمكن للوكيل اتخاذه؛ تحليل السبب الجذري وتحسين الضوابط التي تم التحقق منها قبل إعادة التنشيط؛ واختبار دوري ربع سنوي للإجراء الكامل في بيئة مكافئة للإنتاج مع قياس وتحسين أقصى وقت عزل مقبول.
تابع القراءة في مجموعة الأمان
هذا المنشور جزء من مجموعة محتوى أمن الذكاء الاصطناعي للمؤسسات من Fuzionest. تتعمق هذه المنشورات في أبعاد أمنية محددة تم تقديمها هنا.
ما هو أمن الذكاء الاصطناعي للمؤسسات؟ دليل مبسط لقادة الأعمال
نظرة عامة كاملة على أمن الذكاء الاصطناعي للمؤسسات — طبقات الأمان الخمس بأكملها.
ما هي حواجز الحماية للذكاء الاصطناعي؟ دليل المؤسسات الشامل
بنية حواجز حماية العمليات التي تدعم أمن الوكلاء في الإنتاج.
الأمن السيبراني للذكاء الاصطناعي: كيف يغير الذكاء الاصطناعي مشهد التهديدات
مشهد التهديدات الكامل الذي تم تصميم ضوابط أمن الوكلاء لمعالجته.
إطار حوكمة الذكاء الاصطناعي للمؤسسات: كيف تبني إطاراً فعالاً ومستداماً
كيفية دمج ضوابط أمن الوكلاء في إطار الحوكمة الأوسع.
وكلاء Fuzion AI آمنون بالبنية المعمارية — وليس بالتكوين
ينفذ كل نشر لوكيل ذكاء اصطناعي من Fuzionest جميع خطوات الأمان الست — منع حقن التوجيه، الوصول بأقل الامتيازات، عزل البيئة التجريبية، المراقبة السلوكية، سجلات التدقيق، ونقاط التحقق البشرية — كمكونات معمارية افتراضية مفروضة في طبقة البنية التحتية. ابدأ بتقييم أمني للذكاء الاصطناعي لمعرفة وضع عمليات نشر الوكلاء الحالية لديك.