`
اختلال در ارتقای فوساکا اتریوم: گزارش پس از حادثه پریزم علت را فاش می‌کند

اختلال در ارتقای فوساکا اتریوم: گزارش پس از حادثه پریزم علت را فاش می‌کند

گزارش پریزم پس از حادثه، علت اختلال در ارتقای فوساکا اتریوم را آشکار می‌کند. نقص در پردازش گواهی‌ها توسط کلاینت Prysm، پایداری شبکه را به خطر انداخت، اما تنوع کلاینت‌ها از فاجعه جلوگیری کرد و شبکه در ۲۴ ساعت بازیابی شد.

بررسی ریشه‌های مشکل ارتقاء فوساکا

ارتقاء فوساکا در شبکه اصلی اتریوم، که با هدف بهبود مقیاس‌پذیری و افزایش کارایی تراکنش‌ها طراحی شده بود، به دلیل یک نقص فنی ناخواسته در کلاینت اجماع Prysm، با چالشی جدی مواجه شد. این حادثه که در تاریخ ۴ دسامبر ۲۰۲۵ رخ داد، برای مدت کوتاهی ثبات شبکه را تهدید کرد و نیاز به پایداری و تاب‌آوری در طراحی سیستم‌های بلاکچینی را بیش از پیش برجسته ساخت. در این بخش، به بررسی دقیق ریشه‌های فنی این مشکل، پیامدهای آن بر اکوسیستم اتریوم و مکانیزم‌هایی که به بازیابی سریع شبکه کمک کردند، می‌پردازیم. این اتفاق، درس‌های ارزشمندی را در مورد امنیت و تمرکززدایی در دنیای کریپتو و وب۳ به همراه داشت.

معرفی ارتقاء فوساکا و ظهور مشکل فنی

ارتقاء فوساکا با هدف پیشبرد مقیاس‌پذیری اتریوم برای لایه ۲ (Layer 2) طراحی شده بود و از فناوری PeerDAS (Peer Data Availability Sampling) بهره می‌برد. این نوآوری به منظور افزایش هشت برابری ظرفیت "بِلات" (blob capacity) در شبکه معرفی شد تا حجم داده‌های قابل پردازش برای راهکارهای مقیاس‌پذیری لایه ۲ به طرز چشمگیری افزایش یابد. نکته حائز اهمیت این بود که خود ارتقاء فوساکا با موفقیت و بدون هیچگونه وقفه یا downtime به اجرا درآمد و نشان از آمادگی شبکه برای پذیرش تغییرات زیرساختی داشت.

با این حال، بلافاصله پس از فعال‌سازی ارتقاء در اپوک ۴۱۱۳۹۲، در ساعت ۲۱:۴۹ UTC روز ۴ دسامبر ۲۰۲۵، باگی در کلاینت اجماع Prysm خود را نشان داد. این نقص فنی منجر به فرسودگی منابع (resource exhaustion) در نودهای Prysm شد. دلیل اصلی این فرسودگی، "محاسبات مجدد حالت" (expensive state recomputation) بود که هنگام پردازش گواهی‌های خاص (specific attestations) به صورت غیرمنتظره و با هزینه محاسباتی بالا انجام می‌شد. این شرایط باعث شد که اعتبارسنجی‌هایی که از کلاینت Prysm استفاده می‌کردند، با مشکلات عملیاتی جدی مواجه شوند و عملکرد آن‌ها به شدت کاهش یابد.

ریشه فنی مشکل و پیامدهای آن بر پایداری شبکه

تحلیل پس از حادثه که توسط توسعه‌دهندگان Prysm منتشر شد، نشان داد که ریشه فنی این مشکل به "حالت‌های تاریخی منسوخ" (obsolete historical states) بازمی‌گردد. این حالت‌های تاریخ‌گذشته، شرایط "انکار سرویس" (denial-of-service) را بر روی نودهای Prysm تحت تأثیر قرار گرفته ایجاد کردند. ترنس تسائو، توسعه‌دهنده اصلی Prysm، توضیح داد که "حالت تاریخی به لحاظ محاسباتی و حافظه‌ای بسیار سنگین است و یک نود می‌تواند با تعداد زیادی از بازپخش حالت که به صورت موازی اتفاق می‌افتند، دچار اختلال شود." این بدان معناست که سیستم با حجم بالایی از عملیات بازخوانی و پردازش داده‌های قدیمی روبرو می‌شد که از توان محاسباتی آن فراتر بود و منجر به کندی و در نهایت از کار افتادن موقت نودها می‌گردید.

پیامدهای این باگ جدی و گسترده بود. اعتبارسنجی‌هایی که از Prysm استفاده می‌کردند، که در آن زمان حدود ۱۵ تا ۲۲.۷۱ درصد از کل اعتبارسنجی‌های شبکه اتریوم را تشکیل می‌دادند، دچار افت شدید عملکرد و در برخی موارد از دست دادن کامل توانایی اعتبارسنجی شدند. این مسئله به نوبه خود منجر به کاهش چشمگیر مشارکت اعتبارسنجی شبکه از سطح عادی بالای ۹۵٪ به ۷۵٪ شد. در نتیجه، شبکه اتریوم ۴۱ اپوک (epoch) را از دست داد و تقریباً ۳۸۲ واحد اتریوم (ETH) به عنوان پاداش اثبات (proof rewards) از دست رفت. مهم‌تر از همه، این کاهش مشارکت، شبکه را به طور خطرناکی به آستانه از دست دادن "نهایی‌سازی" (finality) نزدیک کرد. نهایی‌سازی، تضمینی برای بازگشت‌ناپذیری تراکنش‌هاست و از دست دادن آن می‌توانست منجر به فریز شدن عملیات رول‌آپ‌های لایه ۲ و مسدود شدن برداشت‌های اعتبارسنج‌ها تا زمان رفع مشکل شود. این رویداد یک هشدار جدی در خصوص اهمیت امنیت و تاب‌آوری در زیرساخت‌های بلاکچین بود.

نقش حیاتی تنوع کلاینت و بازیابی سریع شبکه

یکی از مهمترین عوامل در جلوگیری از تبدیل شدن این حادثه به یک فاجعه تمام‌عیار برای اکوسیستم اتریوم، معماری "تنوع کلاینت" (client diversity) آن بود. در حالی که اعتبارسنجی‌های Prysm با مشکلات عدیده‌ای دست و پنجه نرم می‌کردند، ده کلاینت اجماع دیگر، از جمله Lighthouse، Nimbus و Teku، بدون هیچگونه وقفه یا اختلالی به عملیات اعتبارسنجی بلاک‌ها ادامه دادند. این ساختار غیرمتمرکز کلاینت‌ها به این معنی بود که تقریباً ۷۵ تا ۸۵ درصد از اعتبارسنجی‌ها در طول این بحران به طور عادی به فعالیت خود ادامه دادند.

این تنوع کلاینت بود که از از دست رفتن کامل نهایی‌سازی جلوگیری کرد و باعث شد شبکه به پردازش تراکنش‌ها ادامه دهد، حتی با وجود وضعیت نامطلوب کلاینت Prysm. بنیاد اتریوم به سرعت وارد عمل شد و دستورالعمل‌های اضطراری را برای اپراتورهای Prysm صادر کرد. اعتبارسنجی‌ها با اعمال یک راه حل موقت، وضعیت خود را بهبود بخشیدند، در حالی که توسعه‌دهندگان Prysm به سرعت روی راه‌حل‌های دائمی در نسخه‌های v7.0.1 و v7.1.0 کار کردند. در نتیجه این تلاش‌های هماهنگ، تا تاریخ ۵ دسامبر، یعنی ظرف کمتر از ۲۴ ساعت پس از حادثه، مشارکت شبکه به تقریباً ۹۹٪ بهبود یافت و عملیات عادی شبکه به طور کامل بازیابی شد. این تجربه نشان‌دهنده اهمیت حیاتی تمرکززدایی و توزیع ریسک در زیرساخت‌های بلاکچین برای تضمین پایداری و امنیت شبکه در مواجهه با خطاهای احتمالی در دنیای پویا و پیچیده وب۳ است.

علت فنی اختلال: حالت‌های تاریخی منسوخ

در تاریخ ۴ دسامبر ۲۰۲۵، پس از فعال‌سازی موفقیت‌آمیز ارتقاء فوساکا (Fusaka) در شبکه اصلی اتریوم که با هدف افزایش چشمگیر ظرفیت حباب‌ها برای مقیاس‌پذیری لایه ۲ (Layer 2) و معرفی فناوری PeerDAS طراحی شده بود، یک اشکال فنی در کلاینت اجماع Prysm رخ داد که پایداری شبکه را به شدت تهدید کرد. این رویداد، که به سرعت توسط توسعه‌دهندگان Prysm مورد تحلیل پس از حادثه (post-mortem) قرار گرفت، ریشه در یک مشکل پیچیده در پردازش داده‌ها داشت. عامل اصلی این اختلال، نه خود ارتقاء فوساکا، بلکه نحوه مدیریت "حالت‌های تاریخی منسوخ" (obsolete historical states) در کلاینت Prysm بود.

ریشه مشکل: خستگی منابع و بازمحاسبه وضعیت

اختلال اصلی در کلاینت Prysm به دلیل "خستگی منابع" (resource exhaustion) ایجاد شد. این وضعیت زمانی رخ داد که کلاینت در حال پردازش "گواهی‌های خاص" (specific attestations) بود و مجبور به انجام "بازمحاسبات پرهزینه وضعیت" (expensive state recomputation) می‌شد. به عبارت دیگر، سیستم به جای استفاده از داده‌های به‌روز و کارآمد، بارها و بارها مجبور به بازپردازش اطلاعات قدیمی و سنگین محاسباتی می‌شد. این فرآیند، مصرف منابع محاسباتی و حافظه را به شدت افزایش داد و باعث شد اعتبارسنج‌ها (validators) که از Prysm استفاده می‌کردند، با مشکلات عملیاتی جدی مواجه شوند.

این اشکال بلافاصله پس از فعال شدن فوساکا در اپوک ۴۱۱۳۹۲ و در ساعت ۲۱:۴۹ UTC روز ۴ دسامبر ۲۰۲۵ خود را نشان داد. در نتیجه، مشارکت اعتبارسنج‌ها به ۷۵ درصد کاهش یافت که منجر به از دست رفتن ۴۱ اپوک (epoch) در شبکه و در حدود ۳۸۲ اتریوم (ETH) در پاداش‌های اثبات کار (proof rewards) شد. این میزان افت مشارکت، شبکه اتریوم را به طور خطرناکی به مرز از دست دادن فینالیتی (finality) نزدیک کرد؛ وضعیتی که می‌توانست عواقب بسیار جدی‌تری برای اکوسیستم بلاکچین داشته باشد.

ماهیت "حالت‌های تاریخی منسوخ" و تهدید DoS

همانطور که ترنس سائو، توسعه‌دهنده اصلی Prysm، توضیح داد، "حالت تاریخی از نظر محاسبات و حافظه بسیار سنگین است و یک گره (node) می‌تواند با تعداد زیادی از بازپخش‌های وضعیت که به صورت موازی اتفاق می‌افتند، مورد حمله DoS (Denial of Service) قرار گیرد." این جمله به وضوح علت فنی اصلی را مشخص می‌کند: وجود داده‌های قدیمی و منسوخ که به عنوان "حالت‌های تاریخی" شناخته می‌شوند. وقتی این حالت‌ها به صورت مکرر و موازی توسط کلاینت Prysm بازپردازش می‌شدند، بار محاسباتی بر روی گره‌ها به قدری افزایش می‌یافت که عملاً آنها را از کار می‌انداخت. این شرایط DoS، به معنی محروم‌سازی از خدمات، مانع از عملکرد صحیح اعتبارسنج‌ها می‌شد.

اعتبارسنج‌هایی که کلاینت Prysm را اجرا می‌کردند، که بین ۱۵ تا ۲۲.۷۱ درصد از کل اعتبارسنج‌های شبکه را تشکیل می‌دادند، دچار افت عملکرد شدید شدند. این افت عملکرد به معنای عدم توانایی در پیشنهاد بلاک‌های جدید و یا گواهی دادن به بلاک‌های موجود بود که مستقیماً منجر به کاهش مشارکت کلی شبکه شد. این حادثه، بار دیگر اهمیت بهینه‌سازی کدهای کلاینت‌ها و مدیریت کارآمد حافظه و وضعیت را در پروتکل‌های غیرمتمرکز مانند اتریوم برجسته کرد.

پیامدهای بحران و نقش تنوع کلاینت

یکی از حیاتی‌ترین پیامدهای این اشکال، نزدیک شدن اتریوم به از دست دادن فینالیتی بود. فینالیتی به معنای نقطه عدم بازگشت تراکنش‌ها است و از دست دادن آن می‌توانست منجر به توقف کامل عملیات رول‌آپ‌های لایه ۲ (Layer 2 rollup) و مسدود شدن برداشت‌های اعتبارسنج‌ها (validator withdrawals) شود تا زمانی که توسعه‌دهندگان مشکل را حل کنند. چنین اتفاقی می‌توانست به کل اکوسیستم وب۳ (Web3) و DAppها (DApps) که بر روی اتریوم ساخته شده‌اند، آسیب جدی وارد کند.

با این حال، معماری "تنوع کلاینت" (client diversity) اتریوم نقشی حیاتی در جلوگیری از یک فاجعه تمام عیار ایفا کرد. در حالی که اعتبارسنج‌های Prysm درگیر مشکلات بودند، ده کلاینت اجماع دیگر از جمله لایت‌هاوس (Lighthouse)، نیمبوس (Nimbus) و تکو (Teku) بدون وقفه به اعتبار سنجی بلاک‌ها ادامه دادند. این ساختار غیرمتمرکز و پراکنده کلاینت‌ها به این معنی بود که تقریباً ۷۵ تا ۸۵ درصد از اعتبارسنج‌ها عملیات عادی خود را در طول بحران حفظ کردند. این مسئله از از دست رفتن فینالیتی جلوگیری کرد و باعث شد شبکه به پردازش تراکنش‌ها ادامه دهد، حتی با وجود وضعیت نامطلوب Prysm. این حادثه یک گواه قوی بر اهمیت استراتژی تنوع کلاینت در تضمین امنیت و پایداری شبکه‌های بلاکچین مقیاس‌پذیر و غیرمتمرکز است.

درس‌های آموخته و پایداری شبکه

پاسخ سریع توسعه‌دهندگان و جامعه اتریوم به این بحران قابل توجه بود. بنیاد اتریوم به سرعت راهنمایی‌های اضطراری را برای اپراتورهای Prysm صادر کرد. اعتبارسنج‌ها راه حل موقت را اعمال کردند در حالی که توسعه‌دهندگان Prysm مشغول ساخت راه حل‌های دائمی در نسخه‌های v7.0.1 و v7.1.0 بودند. این اقدامات شامل استقرار "پرچم‌های زمان اجرا اضطراری" (emergency runtime flags) بود که به سرعت برای کاهش اثرات اشکال به کار گرفته شد. در نهایت، تا ۵ دسامبر، مشارکت شبکه به تقریباً ۹۹ درصد بازگشت و عملیات عادی ظرف ۲۴ ساعت پس از حادثه از سر گرفته شد.

این حادثه یک یادآوری مهم برای جامعه کریپتو و بلاکچین است که حتی در پیشرفته‌ترین شبکه‌ها نیز باگ‌های فنی می‌توانند چالش‌هایی ایجاد کنند. با این حال، اهمیت معماری غیرمتمرکز و تنوع در طراحی پروتکل‌های اجماع، به وضوح در این رخداد آشکار شد و پایداری شبکه اتریوم را در برابر یک خطای بحرانی تضمین کرد. این رویداد نه تنها به افزایش مقاومت اتریوم کمک کرد، بلکه درس‌های ارزشمندی را برای توسعه‌دهندگان و اپراتورهای گره‌ها در مورد نظارت دقیق، بهینه‌سازی کد و برنامه‌ریزی برای حوادث غیرمترقبه در آینده به همراه داشت.

پیامدهای فنی و خطر از دست رفتن نهایی‌سازی

رویداد چهارم دسامبر ۲۰۲۵ در شبکه اصلی اتریوم، که به دنبال فعال‌سازی ارتقاء فوساکا (Fusaka) رخ داد، بار دیگر اهمیت معماری مقاوم و غیرمتمرکز بلاکچین را به اثبات رساند. این حادثه که به دلیل یک نقص فنی در کلاینت اجماع پریسم (Prysm) به وجود آمد، ثبات شبکه اتریوم را تهدید کرد و پیامدهای فنی قابل توجهی در پی داشت که می‌توانست منجر به از دست رفتن نهایی‌سازی (Finality) در شبکه شود. تحلیل پس از حادثه توسط توسعه‌دهندگان پریسم، ماهیت دقیق این مشکل را روشن ساخت و راهکارهای اضطراری و دائمی را برای جلوگیری از تکرار آن فراهم آورد.

نقص فنی در کلاینت پریسم و فرسودگی منابع

مشکل اصلی در کلاینت اجماع پریسم، ناشی از فرسودگی منابع (Resource Exhaustion) بود. این اتفاق زمانی افتاد که کلاینت در پردازش تأییدات (Attestations) خاصی، با بازمحاسبه وضعیت (State Recomputation) گران‌قیمت مواجه شد. این فرآیند، که به شدت نیازمند حافظه پردازشی (Compute Memory) است، باعث شد تا نودهای اعتبارسنج (Validators) درگیر با پریسم، با مشکلات عملیاتی جدی روبرو شوند. به گفته ترنس سائو، توسعه‌دهنده اصلی پریسم، «وضعیت تاریخی (Historical State) به شدت نیازمند حافظه پردازشی است و یک نود می‌تواند با تعداد زیادی از بازپخش‌های وضعیت که به صورت موازی اتفاق می‌افتند، دچار حمله محرومیت از سرویس (Denial-of-Service یا DoS) شود.»

این نقص بلافاصله پس از فعال‌سازی ارتقاء فوساکا در اپک ۴۱۱۳۹۲ (در تاریخ ۴ دسامبر ۲۰۲۵، ساعت ۲۱:۴۹ به وقت جهانی) آشکار شد. اگرچه خود ارتقاء فوساکا، که فناوری PeerDAS (Peer Data Availability Sampling) را برای افزایش هشت برابری ظرفیت بلاک (Blob Capacity) برای مقیاس‌پذیری لایه ۲ (Layer 2 Scaling) معرفی می‌کرد، بدون هیچ وقفه و با موفقیت انجام شده بود، اما باگ پریسم پس از آن خودنمایی کرد. اعتبارسنج‌هایی که از کلاینت پریسم استفاده می‌کردند و حدود ۱۵ تا ۲۲.۷۱ درصد از کل اعتبارسنج‌های شبکه را تشکیل می‌دادند، با افت عملکرد فلج‌کننده‌ای مواجه شدند. این وضعیت منجر به از دست رفتن ۴۱ اپک شد و مشارکت اعتبارسنج‌ها از سطح نرمال بالای ۹۵ درصد به ۷۵ درصد کاهش یافت که حدود ۳۸۲ اتریوم (ETH) پاداش اثبات از دست رفته را به همراه داشت.

خطر از دست رفتن نهایی‌سازی و پیامدهای گسترده

کاهش ناگهانی مشارکت اعتبارسنج‌ها تا ۷۵ درصد، اتریوم را به طرز خطرناکی به مرز از دست رفتن نهایی‌سازی (Finality) نزدیک کرد. نهایی‌سازی به این معناست که تراکنش‌های یک بلاک به طور برگشت‌ناپذیری در بلاکچین ثبت شده‌اند. از دست رفتن کامل نهایی‌سازی در یک شبکه بلاکچینی مانند اتریوم، می‌تواند عواقب فاجعه‌باری داشته باشد. متن مرجع به صراحت بیان می‌کند که اگر این باگ به جای پریسم، کلاینت اجماع دیگری مانند لایت‌هاوس (Lighthouse) را تحت تأثیر قرار می‌داد، شبکه می‌توانست نهایی‌سازی خود را به طور کامل از دست بدهد.

چنین رویدادی، به طور بالقوه عملیات رول‌آپ‌های لایه ۲ (Layer 2 Rollup Operations) را متوقف می‌کرد و برداشت‌های اعتبارسنج‌ها را تا زمان رفع مشکل توسط توسعه‌دهندگان، مسدود می‌ساخت. این امر نه تنها اعتماد به شبکه را به شدت تضعیف می‌کرد، بلکه می‌تواند به ضرر مالی گسترده برای کاربران و پروژه‌های وب ۳ (Web3) که بر روی اتریوم بنا شده‌اند، منجر شود. اهمیت این موضوع به حدی است که جامعه کریپتو و بلاکچین، به طور مداوم بر ضرورت حفظ نهایی‌سازی شبکه تأکید دارند تا اطمینان حاصل شود که تراکنش‌ها و قراردادهای هوشمند، همانطور که انتظار می‌رود، بدون خطر برگشت یا تأخیر غیرقابل قبول، اجرا شوند.

نجات شبکه توسط معماری تنوع کلاینت

با وجود شدت نقص فنی در کلاینت پریسم، معماری تنوع کلاینت (Client Diversity Architecture) اتریوم بود که از بروز یک فاجعه تمام‌عیار جلوگیری کرد. در حالی که اعتبارسنج‌های پریسم با مشکلات حادی دست و پنجه نرم می‌کردند، ده کلاینت اجماع دیگر، از جمله لایت‌هاوس، نیمبوس (Nimbus) و تکو (Teku)، به اعتبارسنجی بلاک‌ها بدون هیچ وقفه‌ای ادامه دادند. این ساختار غیرمتمرکز کلاینت‌ها به این معنی بود که تقریباً ۷۵ تا ۸۵ درصد از اعتبارسنج‌ها، عملیات عادی خود را در طول بحران حفظ کردند.

این تنوع کلاینت‌ها، مانع از دست رفتن نهایی‌سازی شد و به شبکه اجازه داد تا علی‌رغم وضعیت نامطلوب پریسم، پردازش تراکنش‌ها را ادامه دهد. بنیاد اتریوم به سرعت دستورالعمل‌های اضطراری را برای اپراتورهای پریسم صادر کرد. اعتبارسنج‌ها راهکار موقت را اعمال کردند، در حالی که توسعه‌دهندگان پریسم مشغول ساخت راه‌حل‌های دائمی در نسخه‌های v7.0.1 و v7.1.0 بودند. تا پنجم دسامبر، یعنی ظرف ۲۴ ساعت پس از حادثه، مشارکت شبکه به نزدیک ۹۹ درصد بازگشت و عملیات عادی از سر گرفته شد. این رویداد، بار دیگر اهمیت معماری قوی، غیرمتمرکز و دارای تنوع کلاینت را برای پایداری و امنیت یک بلاکچین حیاتی مانند اتریوم، به خصوص در اکوسیستم در حال رشد وب ۳، برجسته ساخت.

نقش تنوع کلاینت‌ها در جلوگیری از فروپاشی

در دنیای پرسرعت و پیچیدهٔ بلاکچین، به‌ویژه در شبکه‌هایی مانند اتریوم که زیربنای بخش عظیمی از اکوسیستم کریپتو و وب۳ محسوب می‌شوند، پایداری و امنیت شبکه از اهمیت حیاتی برخوردار است. یکی از اصول اساسی که اتریوم برای تضمین این پایداری به آن پایبند است، معماری تنوع کلاینت (Client Diversity) است. این رویکرد، در حادثهٔ مهم فوساکا (Fusaka) در تاریخ ۴ دسامبر ۲۰۲۵، نقش تعیین‌کننده‌ای در جلوگیری از یک فروپاشی فاجعه‌بار ایفا کرد و اهمیت استراتژیک آن را بیش از پیش آشکار ساخت.

واقعه فوساکا و آسیب‌پذیری تک‌نقطه‌ای

حادثهٔ فوساکا پس از فعال‌سازی ارتقاء جدید در اتریوم، به‌سرعت خود را نشان داد. مشکل زمانی بروز کرد که کلاینت اجماع Prysm، که توسط ۱۵ تا ۲۲.۷۱ درصد از اعتبارسنج‌های شبکه استفاده می‌شد، دچار نقص فنی شد. این نقص ناشی از مصرف بیش از حد منابع (resource exhaustion) بود که به‌دلیل بازمحاسبه پرهزینهٔ وضعیت (expensive state recomputation) هنگام پردازش گواهی‌های خاص اتفاق افتاد. این مشکل، اعتبارسنج‌های Prysm را با مشکلات عملیاتی جدی مواجه کرد و شرایطی شبیه به حمله محرومیت از سرویس (Denial-of-Service - DoS) را در نودهای آسیب‌دیده ایجاد کرد. همانطور که ترنس تائو، توسعه‌دهنده اصلی Prysm توضیح داد، "وضعیت تاریخی، از نظر محاسباتی و حافظه‌ای بسیار سنگین است و یک نود می‌تواند با تعداد زیادی بازپخش وضعیت که به‌طور موازی انجام می‌شوند، مورد حمله DoS قرار گیرد."

پیامد این نقص فنی فوری و نگران‌کننده بود. مشارکت اعتبارسنج‌ها در شبکه اتریوم از سطح معمول بالای ۹۵ درصد به ۷۵ درصد کاهش یافت. این افت شدید منجر به از دست رفتن ۴۱ اپوک (Epoch) و تقریباً ۳۸۲ واحد اتریوم (ETH) پاداش‌های اثبات شد. مهم‌تر از آن، شبکه اتریوم به خطر جدی از دست دادن «فینالیتی» (Finality) نزدیک شد. فینالیتی به وضعیتی اطلاق می‌شود که تراکنش‌ها به‌طور قطعی و برگشت‌ناپذیر در بلاکچین ثبت شده‌اند. از دست دادن فینالیتی می‌توانست پیامدهای بسیار وخیمی داشته باشد؛ از جمله توقف عملیات رول‌آپ‌های لایه ۲ (Layer 2 rollup operations) و مسدود شدن برداشت‌های اعتبارسنج‌ها تا زمان حل‌وفصل مشکل.

معماری تنوع کلاینت اتریوم: سپری در برابر فروپاشی

دقیقاً در همین نقطه بحرانی بود که اهمیت رویکرد تنوع کلاینت اتریوم خود را نشان داد. در حالی که اعتبارسنج‌های Prysm با مشکلات عملکردی دست‌وپنجه نرم می‌کردند، ده کلاینت اجماع دیگر، از جمله Lighthouse، Nimbus و Teku، بدون هیچ وقفه‌ای به اعتباربخشی بلوک‌ها ادامه دادند. این ساختار غیرمتمرکز کلاینت‌ها به این معنی بود که تقریباً ۷۵ تا ۸۵ درصد از اعتبارسنج‌های شبکه، عملیات عادی خود را در طول بحران حفظ کردند. همین عامل بود که از از دست رفتن کامل فینالیتی جلوگیری کرد و تضمین کرد که شبکه به پردازش تراکنش‌ها ادامه دهد، حتی با وجود وضعیت نامطلوب Prysm. بنیاد اتریوم به سرعت دستورالعمل‌های اضطراری را برای اپراتورهای Prysm صادر کرد و اعتبارسنج‌ها با اعمال راه‌حل‌های موقت، به پایداری شبکه کمک کردند. توسعه‌دهندگان Prysm نیز با استقرار پرچم‌های اضطراری و سپس پیاده‌سازی اصلاحات دائمی در نسخه‌های v7.0.1 و v7.1.0، مشکل را حل کردند. نتیجه این بود که تا ۵ دسامبر، مشارکت شبکه به تقریباً ۹۹ درصد بازگشت و عملیات عادی ظرف ۲۴ ساعت از حادثه از سر گرفته شد.

این حادثه یک درس عملی و بسیار ارزشمند را ارائه داد: اگر این باگ به‌جای Prysm، کلاینت اجماع دیگری مانند Lighthouse را که ممکن است سهم بیشتری از شبکه را داشته باشد، تحت تأثیر قرار می‌داد، شبکه می‌توانست به طور کامل فینالیتی را از دست بدهد. این نشان می‌دهد که اتریوم، با عدم اتکا به یک نرم‌افزار واحد برای حفظ اجماع، خطرات مربوط به نقاط شکست واحد را به حداقل می‌رساند و مقاومت خود را در برابر حملات یا باگ‌های ناشناخته افزایش می‌دهد. ارتقاء فوساکا خود PeerDAS (Peer Data Availability Sampling) را معرفی کرد که برای افزایش هشت برابری ظرفیت بلاک‌ها برای مقیاس‌پذیری لایه ۲ طراحی شده بود و این ارتقاء با موفقیت و بدون هیچ توقفی قبل از بروز باگ Prysm اجرا شده بود.

اهمیت استراتژیک تنوع کلاینت برای آینده بلاکچین

ماجرای فوساکا تنها یک نمونه بارز از نقش بی‌بدیل تنوع کلاینت در تضمین امنیت و پایداری شبکه‌های بلاکچین است. این رویکرد، یک سپر حیاتی در برابر خطرات متعدد ارائه می‌دهد. در وهله اول، باگ‌ها و آسیب‌پذیری‌ها در کدنویسی اجتناب‌ناپذیر هستند. اگر اکثریت اعتبارسنج‌ها از یک کلاینت واحد استفاده کنند، یک باگ در آن کلاینت می‌تواند به‌سرعت کل شبکه را از کار بیندازد و منجر به یک بحران گسترده در دنیای کریپتو شود. تنوع کلاینت‌ها این ریسک را کاهش می‌دهد، زیرا احتمال همزمان بودن یک باگ مخرب در چندین کلاینت مستقل بسیار پایین است.

علاوه بر این، تنوع کلاینت‌ها به تمرکززدایی (Decentralization) و سلامت بلندمدت شبکه کمک می‌کند. این ساختار تضمین می‌کند که هیچ گروه یا شرکتی کنترل بیش از حدی بر زیرساخت اتریوم نداشته باشد. در مواجهه با خطرات احتمالی آینده، مانند حملات فیشینگ پیچیده یا بهره‌برداری‌های امنیتی که ممکن است بخش‌های خاصی از زیرساخت وب۳ را هدف قرار دهند، یک شبکه متنوع و مقاوم بسیار بهتر می‌تواند دوام آورد. این مکانیزم دفاعی، نه تنها شبکه را در برابر شکست‌های فنی مقاوم‌تر می‌کند، بلکه از نظر حاکمیتی نیز توزیع قدرت را تقویت می‌بخشد. در نهایت، تضمین پایداری لایه یک (L1) اتریوم از طریق تنوع کلاینت، برای توسعه و موفقیت راه‌حل‌های مقیاس‌پذیری لایه دو (L2) نیز ضروری است، زیرا پایداری و امنیت L1 مبنای اطمینان و عملکرد L2ها را فراهم می‌کند.

بازیابی شبکه و اقدامات اضطراری پریزم

حادثه فوساکا: اختلال در پایداری شبکه اتریوم

در تاریخ ۴ دسامبر ۲۰۲۵، شبکه اصلی اتریوم شاهد یک حادثه مهم بود که پایداری آن را به چالش کشید. این رویداد، که بلافاصله پس از فعال‌سازی ارتقای فوساکا (Fusaka) در اپوک ۴۱۱۳۹۲ و در ساعت ۲۱:۴۹ UTC رخ داد، ناشی از یک اشکال فنی در کلاینت اجماع Prysm بود. توسعه‌دهندگان پریزم پس از بررسی دقیق، علت این اختلال را کمبود منابع ناشی از بازپردازش پرهزینه وضعیت (state recomputation) هنگام پردازش گواهی‌نامه‌های خاص اعلام کردند. این مشکل منجر به مشکلات عملیاتی جدی برای اعتبارسنجی‌هایی شد که از این کلاینت استفاده می‌کردند. در نتیجه، شبکه اتریوم ۴۱ اپوک را از دست داد و مشارکت اعتبارسنجی‌ها به ۷۵ درصد کاهش یافت که این امر به از دست رفتن تقریبی ۳۸۲ واحد اتریوم (ETH) در پاداش‌های اثبات منجر شد.

ریشه‌یابی مشکل: خطای محاسباتی در پریزم

شکست فنی کلاینت پریزم بر روی وضعیت‌های تاریخی منسوخ تمرکز داشت که شرایط "محرومیت از سرویس" (Denial-of-Service یا DoS) را بر روی نودهای تحت تاثیر ایجاد کرد. ترنس تسائو، توسعه‌دهنده اصلی پریزم، توضیح داد که "وضعیت تاریخی از نظر محاسباتی و حافظه‌ای سنگین است، و یک نود می‌تواند با تعداد زیادی بازپخش وضعیت که به صورت موازی اتفاق می‌افتد، دچار DoS شود." این بدان معناست که هنگام پردازش حجم بالایی از داده‌های مربوط به گذشته شبکه، منابع سیستم به سرعت مصرف شده و نود قادر به انجام وظایف عادی خود نمی‌باشد. اعتبارسنجی‌هایی که از پریزم استفاده می‌کردند، و تقریباً ۱۵ تا ۲۲.۷۱ درصد از کل اعتبارسنجی‌های شبکه را تشکیل می‌دادند، با افت شدید عملکرد مواجه شدند. این مشکل به وضوح نشان داد که پیچیدگی‌های تعامل بین وضعیت‌های قدیمی و جدید شبکه می‌تواند چالش‌های غیرمنتظره‌ای را در عملکرد کلاینت‌ها ایجاد کند.

عواقب نزدیک به بحران: خطر از دست دادن نهایی‌سازی

کاهش مشارکت اعتبارسنجی‌ها از سطوح عادی بالای ۹۵ درصد به ۷۵ درصد، اتریوم را به طور خطرناکی به از دست دادن "نهایی‌سازی" (finality) نزدیک کرد. نهایی‌سازی به وضعیتی اطلاق می‌شود که تراکنش‌ها و بلوک‌ها به طور قطعی در بلاکچین ثبت شده و غیرقابل برگشت تلقی می‌شوند. از دست دادن نهایی‌سازی می‌توانست عواقب فاجعه‌باری داشته باشد، از جمله توقف عملیات رول‌آپ‌های لایه ۲ (Layer 2 rollup operations) و مسدود شدن برداشت‌های اعتبارسنجی‌ها تا زمانی که توسعه‌دهندگان مشکل را حل کنند. اگر این اشکال به جای پریزم، کلاینت اجماع دیگری مانند لایت‌هاوس (Lighthouse) را تحت تأثیر قرار می‌داد، شبکه می‌توانست به طور کامل نهایی‌سازی خود را از دست بدهد. جالب توجه است که خود ارتقای فوساکا که فناوری PeerDAS (Peer Data Availability Sampling) را برای افزایش هشت برابری ظرفیت "بلاب" (blob) برای مقیاس‌گذاری لایه ۲ معرفی کرده بود، با موفقیت و بدون هیچ گونه توقفی قبل از بروز اشکال پریزم اجرا شده بود.

نقش حیاتی تنوع کلاینت‌ها در پایداری اتریوم

معماری تنوع کلاینت‌ها (client diversity architecture) در اتریوم نقش حیاتی در جلوگیری از یک شکست فاجعه‌بار ایفا کرد. در حالی که اعتبارسنجی‌های پریزم با مشکلاتی دست و پنجه نرم می‌کردند، ده کلاینت اجماع دیگر از جمله لایت‌هاوس، نیمبوس (Nimbus) و تکو (Teku) بدون هیچ وقفه‌ای به تأیید بلوک‌ها ادامه دادند. ساختار غیرمتمرکز کلاینت‌ها به این معنی بود که تقریباً ۷۵ تا ۸۵ درصد از اعتبارسنجی‌ها در طول این بحران به عملیات عادی خود ادامه دادند. این ویژگی کلیدی، از دست دادن نهایی‌سازی را مهار کرد و تضمین کرد که شبکه با وجود وضعیت نامطلوب پریزم، به پردازش تراکنش‌ها ادامه دهد. این رویداد نمونه‌ای بارز از اهمیت استراتژی توزیع ریسک در سیستم‌های بلاکچین است، جایی که وابستگی به یک کلاینت واحد می‌تواند کل شبکه را در معرض خطر قرار دهد.

اقدامات اضطراری و بازگشت به وضعیت عادی

در واکنش به این حادثه، بنیاد اتریوم به سرعت دستورالعمل‌های اضطراری را برای اپراتورهای پریزم صادر کرد. اعتبارسنجی‌ها با اعمال یک راه‌حل موقت، به کاهش اثرات مشکل کمک کردند، در حالی که توسعه‌دهندگان پریزم به سرعت در حال ساخت راه‌حل‌های دائمی بودند. این راه‌حل‌های دائمی در نسخه‌های v7.0.1 و v7.1.0 پیاده‌سازی شدند. به لطف این اقدامات هماهنگ و سریع، تا ۵ دسامبر، یعنی کمتر از ۲۴ ساعت پس از وقوع حادثه، مشارکت شبکه به تقریباً ۹۹ درصد بازگشت و عملیات عادی از سر گرفته شد. این واکنش سریع و کارآمد، نشان‌دهنده استحکام جامعه توسعه‌دهندگان و اپراتورهای اتریوم و توانایی آن‌ها در مقابله با چالش‌های فنی در یک محیط غیرمتمرکز است. این حادثه همچنین درس‌های ارزشمندی را برای بهبود پایداری و امنیت آینده شبکه اتریوم به همراه داشت.

جمع‌بندی و توصیه‌های نهایی

حادثه فوساکا که به دلیل یک اشکال در کلاینت پریزم رخ داد، یادآوری قدرتمندی از پیچیدگی‌ها و آسیب‌پذیری‌های ذاتی در سیستم‌های بلاکچین بزرگ و غیرمتمرکز مانند اتریوم است. این رویداد اهمیت حیاتی تنوع کلاینت‌ها را برجسته کرد؛ مکانیزمی که با توزیع ریسک بین پیاده‌سازی‌های نرم‌افزاری مختلف، از تبدیل شدن یک مشکل محلی به یک فاجعه سیستمی جلوگیری می‌کند. واکنش سریع بنیاد اتریوم و توسعه‌دهندگان پریزم، همراه با همکاری جامعه اعتبارسنجی‌ها، پایداری و تاب‌آوری شبکه را در برابر شوک‌های ناگهانی به نمایش گذاشت. توصیه نهایی این است که توسعه‌دهندگان و اپراتورهای شبکه باید همواره هوشیار باشند و بر مانیتورینگ دقیق و به‌روزرسانی‌های منظم تأکید کنند. تقویت بیشتر استراتژی‌های تنوع کلاینت و تداوم تحقیقات برای شناسایی و رفع نقاط ضعف احتمالی، برای تضمین امنیت و مقیاس‌بندی بلندمدت اتریوم در دنیای وب ۳ ضروری است. این حادثه، علی‌رغم چالش‌ها، در نهایت به تقویت اکوسیستم اتریوم کمک کرد.

ملیکا اسماعیلی