اختبار الذكاء الاصطناعي التوليدي (Generative AI)
يقوم فريق الاختبار عادة باختبار البرمجيات عن طريق التحقق مما إذا كان البرنامج يفعل بالضبط ما تم تصميمه لأجله. الآن، دعونا نتخيّل العمل مع الذكاء الاصطناعي التوليدي الذي يصمّم الصور أو حتى يكتب الكود بنفسه. كيف نعرف ما إذا كان يقوم بعمل جيّد أم لا؟ هذا هو التحدّي الرائع المتمثّل في اختبار الذكاء الاصطناعي التوليدي والذي يستعرضه راماكريشنان في هذا الموضوع.
لماذا يحتاج دليل الاختبار القديم الخاص بك إلى التحديث
يشبه الاختبار التقليدي اتباع وصفة الأكل، فهل تتطابق النتيجة النهائية مع ما توقعته؟ الذكاء الاصطناعي التوليدي يشبه توظيف طاهٍ مبدع. إنه يعرف الأساسيات لكنك تطلب شيئًا جديدًا وفريدًا في كل مرة. هذا يعني أننا بحاجة إلى الحُكْم على الطبق بشكل مختلف. مع الذكاء الاصطناعي التوليدي يجب أن تتوقع ما هو غير متوقع: البرمجيات القديمة تعطي نفس النتيجة في كل مرة. أما الذكاء الاصطناعي التوليدي فهو أكثر ارتجالية وقد تحصل على نتيجة مختلفة قليلاً في كل مرة وبالتالي يجب أن تكون اختباراتنا مَرنة.
مجموعة مهارات (الناقد الفنّي) الجديدة الخاصة بالذكاء الاصطناعي التوليدي
كيف نصبح خبراء في الحُكْم على هذا الذكاء الاصطناعي التوليدي؟ هنا التحوّل:
- تظل اللمسة البشرية هي المفتاح: ليس هناك بديل عن شخص حقيقي ينظر إلى المُخرَجات ويحكم عليها.
- لا تَدَع الذكاء الاصطناعي التوليدي يكذب: يتعلّم الذكاء الاصطناعي التوليدي من كميّات هائلة من الأشياء وقد تكون غير دقيقة. تحتاج الاختبارات إلى تحديد المكان الذي يستمد منه الذكاء الاصطناعي التوليدي المعرفة الحقيقية مقابل كونه يختلِق الأمور من عنده.
- الوقاية من التحيّز: من المؤسف أن أنظمة الذكاء الاصطناعي التوليدي تتعلّم العيوب والأخطاء البشرية أيضًا. يجب أن يكون القائمون على الاختبار على اطلاع بالنتائج غير العادلة أو المسيئة من خلال عمليات التحقق من النزاهة والمراجعة الدقيقة وبالتالي مَنْع الضرر قبل بَدْء عمل الذكاء الاصطناعي التوليدي.
- هل كان مفيدًا؟: في النهاية، هل ساعد الذكاء الاصطناعي التوليدي المستخدِم؟ ردود فِعْل المستخدمين في العالم الحقيقي هي الاختبار النهائي والحقيقي.
كيفية تطوير مهارات (الناقد الفنّي)
كيف يمكن للمختبر بناء هذه المهارات؟ فيما يلي بعض الطرق العمليّة:
- دراسة الأمثلة: انظر إلى الأمثلة الجيّدة والسيئة لما يهدِف الذكاء الاصطناعي التوليدي الخاص بك إلى إنتاجه. ابدأ في تكوين آرائك الخاصّة حول ما يشكّل الجودة في هذا السياق.
- حلقات التغذية الراجعة (Feedback Loops): لا تحْكُم في فراغ! كُن على تواصُل مع المستخدمين أو المصمّمين أو أصحاب المصلحة الذين سيستخدمون في النهاية مُخرَجات الذكاء الاصطناعي التوليدي. احصل على وجهة نظرهم حول ما يصلح وما لا يصلح.
- النّهج التكراري (Iterative Approach): الذكاء الاصطناعي التوليدي يتطوّر باستمرار. قم بمراجعة معايير التقييم الخاصة بك بانتظام بينما يتعلّم الذكاء الاصطناعي التوليدي بنفسه أو يتم ضبطُه بدِقة. ستحتاج عين الجودة لديك إلى التطوّر جنبًا إلى جنب.
المختبرون، حان وقت التطوّر!
يتطلّب ظهور الذكاء الاصطناعي التوليدي أن يبتعد القائمون على الاختبار عن عقليّة العثور على الأخطاء البحتة (purely bug-hunting mindset) وأن يتبنّوا دور (حكّام جودة الذكاء الاصطناعي). هنا نظرة فاحصة على المجالات الرئيسية للتطوّر:
- فهم الأعمال الداخليّة (Understanding the Inner Workings): على الرغم من أنك لا تحتاج إلى أن تكون عالم بيانات، إلا أن اكتساب فهم أساسي لكيفية تعلّم نماذج الذكاء الاصطناعي التوليدية أمر بالغ الأهميّة. ما هي البيانات التي تم التدريب عليها؟ ما نوع الخوارزميات التي يستخدمها؟ يساعدك هذا على التنبؤ بنقاط الفشل المحتملة وتصميم الاختبارات لاكتشافها.
- الاحتمالية مقابل القدرة على التنبّؤ (Probability vs. Predictability): لن يعطي الذكاء الاصطناعي التوليدي دائمًا نفس المخرجات لمُدْخل معيّن. تعرّف على المقاييس الإحصائية مثل التبايُن (variance) وكيفيّة تصميم الاختبارات التي تقيّم مدى تناسق النموذج فيما يتعلق بالنتيجة المرجوّة.
- التحيّز – الخطأ المخفي: على عكس أخطاء التعليمات البرمجية التقليدية، يُعَد التحيّز أمرًا خبيثًا. يحتاج المختبرون إلى تطوير عين حادة لاكتشاف التحيّز في مخرجات الذكاء الاصطناعي التوليدي. هذا يعني استخدام مقاييس الإنصاف والاختبار من خلال موجّهات (prompts) وسيناريوهات متنوعة لاكتشاف عندما يعكس الذكاء الاصطناعي التوليدي التحيّزات غير المرغوب فيها.
- سادة الموجّهات (Prompt Masters): مع الذكاء الاصطناعي التوليدي، لا تقتصر المُدْخلات على البيانات فحسب بل هي التعليمات والموجّه (prompt) الذي يشكّل المخرجات. يحتاج المختبرون إلى التجربة هنا، هل يمكنك (خِداع) الذكاء الاصطناعي التوليدي للكشف عن التحيّز؟ هل يمكنك العثور على موجّهات (prompts) تعمل على تحسين جودة النتيجة بشكل ملحوظ؟
- بعيدًا عن وظائف البرنامج، يتعلّق الأمر باللياقة البدنية: هل يتوافق المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي التوليدي مع غرضه؟ يصبح المختبرون خبراءَ في الحُكْم على ما إذا كان الإعلان المكتوب بالذكاء الاصطناعي التوليدي مقنعًا حقًا أو ما إذا كانت الصورة تتوافق مع الحالة المزاجية التي طُلب منه إنشاؤها وهذا يتطلّب فهم الاحتياجات الشخصية للمستخدِم.
في الختام، سيكون هناك طلب كبير على المختبرين الذين يمكنهم إتقان هذا. لم نَعُد نقوم فقط بإيجاد الأخطاء، نحن نساعد في توجيه الذكاء الاصطناعي التوليدي لإنشاء أشياء يمكنها تحسين الحياة حقًا وهذه مهمّة حماسية لتكون جزءًا منها!
بالتوفيق للجميع…
* المصدر: https://www.softwaretestingmagazine.com/knowledge/when-software-testing-gets-creative-evaluating-generative-ai
** الصورة من موقع: https://kms-technology.com
لا توجد تعليقات