Stable Diffusion

Stable Diffusion

Stable Diffusion هو نموذج تعليمي عميق يستخدم الذكاء الصناعي لتحويل النص إلى صورة تم إصداره في عام 2022. ويستخدم بشكل أساسي لإنشاء صور مفصلة مشروطة بأوصاف نصية ، على الرغم من أنه يمكن أيضًا تطبيقه على مهام أخرى مثل اصلاح الصور، والتلوين الخارجي ، وتوليد صورة في صورة – عبر الاسترشد بنص موجه.
ويمكن تشغيله على معظم الأجهزة الاستهلاكية المجهزة بوحدة معالجة رسومات متواضعة بسعة 8 جيجابايت على الأقل من VRAM.

Stable Diffusion

التحميل والتتبيث

قم بتحميل البرنامج Easy-Diffusion-Windows.exe.

قم بتحميل موديول التدريب للصور داتا بامتداد  .ckpt

https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned-emaonly.ckpt

قم بوضع الملف v1-5-pruned-emaonly.ckpt  المجلد التالي >  Models  ثم > Stable Diffusion .

واجهة الويب

لاستخدام واجهة الويب قم بتحميل الرابط لموديول الويب الخاص الدي يعمل على ويندوز

https://github.com/AUTOMATIC1111/stable-diffusion-webui/archive/refs/heads/master.zip

عند استخدام واجهة الويب قم بتشغيل الملف webui-user.bat ليشتغل لك البرنامج لاول مرة ليقوب بتتبث اي تحديتاث متوفرة.

التجربة اونلاين

بالامكان تجربة اونلاين عبر رابط موقع https://playgroundai.com/create حيث يتيح لك توليد الصور بشكل مجاني، يتطلب تسجيل دخول عبر حساب جيميل فقط.

نسخة Iphone

هذا هو التطبيق المخصص لآيفون:-

Draw Things: AI Generation

بيانات التدريب

تم تدريب Stable Diffusion على أزواج من الصور والتعليقات التوضيحية المأخوذة من LAION-5B ، وهي مجموعة بيانات متاحة للجمهور مستمدة من بيانات الزحف المشترك المأخوذة من الويب ، حيث تم تصنيف 5 مليارات من أزواج نصوص الصور بناءً على اللغة وتم تصفيتها في مجموعات بيانات منفصلة حسب الدقة، والنتيجة “الجمالية” المتوقعة (مثل الجودة البصرية الذاتية).

عمليات التدريب

تم تدريب النموذج في البداية على مجموع صور فرعية عالية الدقة من laion2B-en و laion، مع القيام بعمليات من التدريب على LAION-Aesthetics v2 5+ ، وهي مجموع صور تتكون من 600 مليون صورة. والتي وصل نسبة صحة توقعها، في المتوسط​​، الى درجة لا تقل عن 5 من 10 عندما يُطلب منهم تقييم مدى إعجابهم بالنتيجة.

قدرات الخوازمية

يدعم نموذج Stable Diffusion القدرة على إنشاء صور جديدة من الصفر، من خلال استخدام نص يصف العناصر التي سيتم تضمينه أو حذفه من النتيجة. يمكن إعادة رسم الصور الموجودة بواسطة النموذج لتضمين عناصر جديدة موصوفة بواسطة موجه النص (عملية تعرف باسم “تركيب الصورة الموجهة”) من خلال آلية تقليل الانتشار الخاصة به

يوصى بتشغيل Stable Diffusion مع 10 جيجابايت أو أكثر من ذاكرة الفيديو VRAM، ومع ذلك قد يختار المستخدمون الذين لديهم ذاكرة VRAM أقل تفعيل الحسابات بدقة float16 بدلاً من float32 الافتراضي للحصول على أداء معقول مع استخدام أقل للذاكرة VRAM.

النص لتوليد الصور

يستهلك النص إلى البرنامج النصي لأخذ عينات الصور داخل Stable Diffusion ، والمعروف باسم “txt2img” ، موجهًا نصيًا بالإضافة إلى معلمات الخيارات المتنوعة التي تغطي أنواع أخذ العينات وأبعاد صورة الإخراج والقيم الأولية. يقوم البرنامج النصي بإخراج ملف صورة بناءً على تفسير النموذج للموجه. [1] يتم تمييز الصور المُنشأة بعلامة مائية رقمية غير مرئية للسماح للمستخدمين بتحديد الصورة كما تم إنشاؤها بواسطة Stable Diffusion ، [1] على الرغم من أن هذه العلامة المائية تفقد فعاليتها إذا تم تغيير حجم الصورة أو تدويرها.

سيشمل كل جيل txt2img قيمة أولية محددة تؤثر على الصورة الناتجة. يمكن للمستخدمين اختيار التوزيع العشوائي للبذور من أجل استكشاف المخرجات المختلفة التي تم إنشاؤها ، أو استخدام نفس المصدر للحصول على نفس إخراج الصورة مثل الصورة التي تم إنشاؤها مسبقًا. [24] يمكن للمستخدمين أيضًا ضبط عدد خطوات الاستدلال لأخذ العينات ؛ تستغرق القيمة الأعلى مدة زمنية أطول ، ولكن القيمة الأقل قد تؤدي إلى عيوب بصرية. [24] هناك خيار آخر قابل للتكوين ، وهو قيمة مقياس التوجيه الخالي من المصنفات ، ويسمح للمستخدم بضبط مدى تقارب صورة المخرجات مع الموجه. [20] قد تختار حالات الاستخدام الأكثر تجريبية قيمة مقياس أقل ، بينما قد تستخدم حالات الاستخدام التي تهدف إلى مخرجات أكثر تحديدًا قيمة أعلى.

تعديل الصورة

يتضمن الانتشار المستقر أيضًا نصًا برمجيًا آخر لأخذ العينات ، “img2img” ، والذي يستهلك موجهًا نصيًا ، ومسارًا إلى صورة موجودة ، وقيمة قوة بين 0.0 و 1.0. يقوم البرنامج النصي بإخراج صورة جديدة بناءً على الصورة الأصلية التي تحتوي أيضًا على العناصر المتوفرة في موجه النص. تشير قيمة القوة إلى مقدار الضوضاء المضافة إلى صورة الإخراج. تنتج قيمة القوة الأعلى مزيدًا من التباين داخل الصورة ولكنها قد تنتج صورة غير متسقة لغويًا مع الموجه المقدم

 

 رخصة

على عكس النماذج مثل DALL-E ، يجعل Stable Diffusion كود المصدر الخاص به متاحًا ، جنبًا إلى جنب مع النموذج (أوزان محددة مسبقًا). تطبق ترخيص Creative ML OpenRAIL-M ، وهو شكل من أشكال ترخيص AI المسؤول (RAIL) ، على النموذج (M).

يحظر الترخيص بعض حالات الاستخدام ، بما في ذلك الجريمة ، والتشهير ، والمضايقة ، والخداع ، و “استغلال … القاصرين” ، وتقديم المشورة الطبية ، وإنشاء التزامات قانونية تلقائيًا ، وتقديم أدلة قانونية ، و “التمييز ضد الأفراد أو الجماعات أو إلحاق الضرر بهم بناءً على .. . السلوك الاجتماعي أو … السمات الشخصية أو الشخصية …

يمتلك المستخدم حقوق الصور الناتجة التي تم إنشاؤها ، وله الحرية في استخدامها تجاريًا


كتابة Mostafa Suleiman

مصطفى سليمان خريج تقنية معلومات أكتب في المجال التقني من 10 سنوات تقريباً، هوايتي القرائة ومتابعة الاخبار عامة والاخبار التقنية خاصة