مراجعات السعة وممارسة التنبؤ
مراجعات السعة وممارسة التنبؤ
يتولى التوسع التلقائي معالجة المرونة الدقيقة للنظام الحي، لكنه لا يستطيع إخبارك إذا كانت بنيتك التحتية ستصمد أمام نمو الربع القادم، أو إطلاق منتج يضاعف قاعدة مستخدميك ثلاث مرات، أو التوسع نحو منطقة جغرافية جديدة. هذه المسؤولية تقع على عاتق مراجعة السعة — وهي عملية هندسية منظمة تربط النوايا التجارية بالالتزامات الخاصة بالبنية التحتية. يغطي هذا الدرس كيفية إجراء المهندسين الكبار في شركات القمة لمراجعات الإطلاق، وبناء نماذج النمو، والتفكير في سعة المناطق المتعددة بطريقة تصمد أمام التدقيق متعدد الوظائف.
مراجعات الإطلاق: بوابة سعة الإنتاج
مراجعة الإطلاق (التي تُعرف أحياناً بمراجعة جاهزية الإنتاج أو PRR) هي نقطة تفتيش قبل الإطلاق يثبت فيها الفريق المالك لميزة أو خدمة جديدة أنها لن تتسبب في انقطاع الخدمة عند وصول حركة المرور الحقيقية. في شركات مثل Google وMeta وAmazon، يُعدّ إكمال مراجعة الإطلاق شرطاً صارماً قبل أي تصاعد جزئي كبير في حركة المرور. المراجعة ليست بيروقراطية — بل تكشف نقاط العمى في السعة قبل أن تتحول إلى حوادث.
تغطي مراجعة الإطلاق المنظمة جيداً أربعة مجالات:
- شكل حركة المرور وتقديرات الذروة. ما معدل الطلبات المتوقع عند p50 وp99 لحظة الإطلاق؟ هل حركة المرور متقطعة (تخفيض مفاجئ، أو مشغّل cron يطلق بداية كل ساعة) أم سلسة؟ كيف تتدهور حركة المرور بأمان — هل يوجد طبقة CDN أو قائمة انتظار، أم ينزل الحمل مباشرة على الأصل؟
- التحقق من تحجيم الموارد. أجرِ اختبارات الحمل عند 150% من أعلى توقع للذروة، وتأكد من وجود هامش في استهلاك CPU والذاكرة على الخدمة وتبعياتها (قواعد البيانات، وذاكرات التخزين المؤقت، وسماسرة الرسائل). تحقق من أن HPA سيعمل وأن الحاويات الجديدة ستصل قبل انتهاك الـ SLO.
- عقود سعة التبعيات. يجب أن تؤكد كل خدمة مصدر أو وجهة أن لديها هامشاً يستوعب الإطلاق. خدمة واحدة في المصب بلا هامش ستتسبب في تدهور متتالي تجاه الخدمة الجديدة بغض النظر عن حجمها.
- خطة التراجع وتخفيف الحمل. وثّق الأوامر الدقيقة التي تعكس الطرح، وتوقف علامة الميزة، أو تنشط تخفيف الحمل عند تعثر الإطلاق. يجب تدريب هذه الخطة مسبقاً، لا كتابتها للمرة الأولى خلال حادثة.
أتمتة اختبارات الحمل هي الأساس. يحاكي نص k6 التالي تصاعداً واقعياً للإطلاق — لا جداراً مسطحاً من الحمل، بل زيادة تدريجية تحاكي الطرح الجزئي أو حملة تسويقية تدفع اكتساب المستخدمين:
ادمج هذا النص في خط CI الخاص بك حتى تتمكن كل فرع من إثبات امتثاله للـ SLO قبل أن يعقد اجتماع المراجعة. تصبح مراجعة الإطلاق حينئذ عرضاً للأدلة، لا جلسة اكتشاف.
نمذجة النمو: ترجمة خطط الأعمال إلى أرقام موارد
تحوّل نمذجة النمو خارطة طريق المنتج والتوقعات التجارية إلى توقعات موارد قابلة للتنفيذ. المخرج ليس رقماً واحداً — بل نطاق بفترات ثقة، يُحدَّث بانتظام (عادةً شهرياً).
يعتمد أبسط نموذج فعّال على ثلاثة مدخلات:
- الخط الأساسي الحالي. استهلاك الموارد المقاس لكل وحدة نشاط تجاري (الطلبات لكل مستخدم نشط يومياً، كتابات صفوف قاعدة البيانات لكل طلب، GB صادر لكل مشاهدة فيديو). استخرج هذه البيانات من منظومة الرصد — مقاييس Prometheus مقترنة بأحداث تحليلات الأعمال.
- معدل النمو. نمو المستخدمين، أو حجم المعاملات، أو حجم البيانات — أيهما يُحرك عامل التكلفة الرئيسي. استخدم توقعات فريق المنتج الملتزمة للتخطيط، وسيناريو P90 للإمكانات الصاعدة للهامش.
- تحسين الكفاءة. كل ربع سنة، تخفّض تحسينات التخزين المؤقت وتحسينات الاستعلام وترقيات البروتوكول تكلفة الموارد لكل وحدة. نمّذج تحسيناً محافظاً بنسبة 10–15% سنوياً حتى لا تُبالغ في التوفير مقابل تكلفة لكل وحدة ستتقلص.
يسحب النص التالي بيانات Prometheus للـ 90 يوماً الماضية ويلائم خطاً اتجاهياً للمساعدة في تثبيت النموذج:
تخطيط السعة الإقليمية
التوسع إلى منطقة جديدة — أو الحفاظ على التكرار الإقليمي N+1 — يتطلب تمريناً منفصلاً للسعة لأن حركة المرور الإقليمية ليست أبداً جزءاً بسيطاً من حركة المرور العالمية. يأخذ تخطيط السعة الإقليمي بعين الاعتبار ثلاثة عوامل يفوتها النموذج العالمي:
- تقارب الزمن الحساس للكمون. لا يتوزع المستخدمون بالتساوي بين المناطق. قد تجذب منطقة APAC الجديدة 25% من التسجيلات العالمية لكنها تولّد 40% من استدعاءات API لأن انخفاض الكمون يرفع معدل التفاعل. قس نطاقات الكمون الحالية جغرافياً لبناء مضاعفات معدل الطلبات الخاصة بالمنطقة.
- متطلبات إقامة البيانات. تُلزم اللوائح مثل GDPR وقوانين السيادة على البيانات وعقود عملاء المؤسسات في أحيان كثيرة ببقاء بيانات محددة داخل منطقة بعينها. هذا يفرض وجود قواعد بيانات محلية رئيسية وتخزين كائنات محلي، وهما أعلى تكلفة ثابتة من نشر قائم على النسخ المتماثلة للقراءة فحسب.
- ميزانية عزل فشل المنطقة. إذا كنت تستهدف التكرار N+1، يجب تحجيم كل منطقة لاستيعاب 100% من حركة مرور المنطقة الفاشلة خلال التحويل التلقائي. كثير من الفرق تُخصص موارد منقوصة للمنطقة الاحتياطية مع "سنوسعها إن احتجنا" — وهي خطة تفشل عملياً عندما يتزامن التحويل التلقائي مع ارتفاع حركة المرور.
قاعدة التحجيم الحرجة للتكرار N+1: شغّل كل منطقة بما لا يتجاوز 60–70% من الاستهلاك خلال التشغيل الطبيعي. هذا يحفظ هامشاً كافياً لاستيعاب تحويل تلقائي كامل مضافاً إليه تأخر التوسع التلقائي بينما يتزامن ارتفاع حركة المرور وفشل إقليمي — وهو أسوأ سيناريو يجب أن يصمد أمامه تخطيط سعتك.
إجراء اجتماع المراجعة الربعية للسعة
يكون اجتماع مراجعة السعة أكثر فعالية عندما يتبع جدولاً ثابتاً، مانعاً تحوله إلى نقاش مفتوح. بنية مجربة وفعّالة:
- الحالة الراهنة (10 دقائق). اعرض اتجاه استهلاك 90 يوماً لكل طبقة: CPU والذاكرة وإدخال/إخراج القرص وصادرات الشبكة واتصالات قاعدة البيانات. نبّه على أي مقياس تجاوز 70% من السعة خلال الربع الماضي.
- التوقعات مقابل الواقع (10 دقائق). قارن التوقعات من المراجعة الربعية السابقة بالواقع. النموذج الذي يتنبأ باستمرار بزيادة يهدر المال؛ والذي يتنبأ بنقص يسبب حوادث. اضبط مضاعفات نمو النموذج بناءً على التباين.
- توقعات الربع القادم (15 دقيقة). استعرض نموذج النمو للـ 90 يوماً القادمة، شاملاً الإطلاقات القادمة والحملات التسويقية والموسمية. حدد المورد الذي سيبلغ 80% من الاستهلاك أولاً — هذا هو المسار الحرج للربع.
- بنود العمل (5 دقائق). كل مورد في خطر يحتاج مالكاً وتاريخ حل مستهدفاً: توسع رأسي، أو اعتماد توسع أفقي، أو تحسين كود، أو طلب رفع حصة لدى مزود السحابة.
يجعل دليل تشغيل يلتقط دورة المراجعة الربعية كوكود العملية قابلة للتكرار. يصدّر مقتطف الشل التالي مقاييس Prometheus الرئيسية إلى CSV يُشكّل نقطة البداية لعرض المراجعة:
يُغلق تخطيط السعة الحلقة بين المرونة التفاعلية للتوسع التلقائي وحوكمة الموارد الاستباقية التي تُبقي المنصات مستقرة مع نمو الأعمال. المهندسون الذين يتقنونه هم من يمنعون حوادث منتصف الليل — لا من يستجيبون لها.