شتاب‌دهنده FPGA برای الگوریتم 3DES مبتنی بر OpenCL: طراحی و تحلیل عملکرد

1. مقدمه و مرور کلی

در حوزه‌های ارز دیجیتال، بلاک‌چین و رمزنگاری داده‌های ابری، تقاضا برای پردازش رمزنگاری پرسرعت و کم‌مصرف از اهمیت بالایی برخوردار است. پیاده‌سازی‌های نرم‌افزاری سنتی الگوریتم‌هایی مانند 3DES از گلوگاه‌های عملکردی قابل توجه، مصرف بالای منابع CPU و مصرف انرژی زیاد رنج می‌برند. در حالی که آرایه‌های گیت قابل برنامه‌ریزی میدانی (FPGA) یک راه‌حل شتاب‌یافته سخت‌افزاری ارائه می‌دهند، توسعه با استفاده از زبان‌های توصیف سخت‌افزار سطح پایین (HDL) مانند Verilog/VHDL زمان‌بر و پیچیده است.

این مقاله یک طراحی نوآورانه برای شتاب‌دهنده الگوریتم 3DES روی FPGA با استفاده از چارچوب زبان محاسبات باز (OpenCL) ارائه می‌دهد. معماری پیشنهادی از سنتز سطح بالا (HLS) برای پل زدن شکاف بهره‌وری استفاده می‌کند و یک ساختار خط لوله موازی 48-تکرار را پیاده‌سازی می‌کند. از طریق بهینه‌سازی‌های راهبردی—شامل تنظیم ذخیره‌سازی داده، بهبود پهنای بیت، بهینه‌سازی جریان دستورالعمل، برداری‌سازی هسته و تکثیر واحد محاسباتی—این طراحی در مقایسه با پلتفرم‌های CPU و GPU، به دستاوردهای قابل توجهی در عملکرد و بازده انرژی دست می‌یابد.

111.8 گیگابیت بر ثانیه

حداکثر توان عملیاتی روی Intel Stratix 10

372 برابر

عملکرد در مقابل Intel Core i7-9700

9 برابر

بازده انرژی در مقابل NVIDIA GTX 1080 Ti

2. پیش‌زمینه فنی

2.1 الگوریتم 3DES

استاندارد رمزنگاری سه‌گانه داده (3DES) یک رمز بلوکی کلید متقارن است که از الگوریتم قدیمی DES مشتق شده است. برای افزایش امنیت در برابر حملات جستجوی فراگیر، 3DES رمز DES را سه بار روی هر بلوک داده اعمال می‌کند. استاندارد سه گزینه کلیدگذاری را تعریف می‌کند که امن‌ترین آن از سه کلید مستقل استفاده می‌کند (گزینه کلیدگذاری 1): $C = E_{K3}(D_{K2}(E_{K1}(P)))$، که در آن $E$ رمزگذاری، $D$ رمزگشایی، $K1, K2, K3$ کلیدها، $P$ متن آشکار و $C$ متن رمز است. این امر منجر به طول کلید مؤثر 168 بیت و 48 دور محاسباتی می‌شود.

2.2 OpenCL برای برنامه‌نویسی FPGA

OpenCL یک استاندارد باز و بدون حق امتیاز برای برنامه‌نویسی موازی در پلتفرم‌های ناهمگن (CPUها، GPUها، FPGAها، DSPها) است. برای FPGAها، ابزارهایی مانند Intel FPGA SDK for OpenCL به عنوان کامپایلر سنتز سطح بالا (HLS) عمل می‌کنند و کد هسته نوشته شده به زبانی شبیه C را به مدارهای سخت‌افزاری کارآمد ترجمه می‌کنند. این انتزاع به طور قابل توجهی زمان و پیچیدگی توسعه را در مقایسه با طراحی RTL کاهش می‌دهد و شتاب FPGA را برای توسعه‌دهندگان نرم‌افزار و متخصصان حوزه در دسترس قرار می‌دهد.

3. معماری و طراحی شتاب‌دهنده

3.1 ساختار خط لوله موازی

هسته شتاب‌دهنده یک معماری خط لوله عمیق است که 48 دور الگوریتم 3DES را باز می‌کند. این طراحی اجازه می‌دهد چندین بلوک داده به طور همزمان در مراحل مختلف خط لوله رمزگذاری پردازش شوند و به حداکثر استفاده از سخت‌افزار و توان عملیاتی دست یابند. خط لوله به دقت متعادل شده است تا از توقف‌ها جلوگیری کند و جریان داده پیوسته را تضمین کند.

3.2 بهینه‌سازی انتقال داده

برای غلبه بر گلوگاه پهنای باند حافظه که در طراحی‌های شتاب‌دهنده رایج است، دو راهبرد کلیدی به کار گرفته شده‌اند:

تنظیم ذخیره‌سازی داده: بهینه‌سازی چیدمان داده در حافظه میزبان و دستگاه برای فعال‌سازی انتقال‌های انفجاری کارآمد و به حداقل رساندن تأخیر دسترسی.
بهبود پهنای بیت داده: افزایش عرض مسیرهای داده بین حافظه و هسته برای تطابق با قابلیت‌های گذرگاه داخلی FPGA، در نتیجه بهبود استفاده مؤثر از پهنای باند.

3.3 راهبردهای بهینه‌سازی هسته

هسته OpenCL با استفاده از چندین تکنیک بهینه شده است:

بهینه‌سازی جریان دستورالعمل: بازآرایی و ساده‌سازی عملیات برای ایجاد یک برنامه زمان‌بندی خط لوله کارآمد، کاهش وابستگی‌ها و چرخه‌های بیکار.
برداری‌سازی هسته: استفاده از عملیات تک دستورالعمل، چندین داده (SIMD) برای پردازش همزمان چندین عنصر داده در یک نمونه هسته واحد.
تکثیر واحد محاسباتی: نمونه‌سازی چندین کپی از هسته بهینه‌شده (واحدهای محاسباتی) روی ساختار FPGA برای پردازش جریان‌های داده مستقل به صورت موازی، مقیاس‌پذیری عملکرد با منابع موجود.

4. نتایج آزمایش و عملکرد

شتاب‌دهنده روی یک FPGA اینتل Stratix 10 GX2800 پیاده‌سازی و آزمایش شد. معیارهای کلیدی عملکرد به شرح زیر است:

توان عملیاتی: به حداکثر توان عملیاتی 111.801 گیگابیت بر ثانیه دست یافت.
در مقابل CPU (اینتل Core i7-9700): عملکرد به میزان 372 برابر بهبود یافت، با بازده انرژی 644 برابر بهتر.
در مقابل GPU (NVIDIA GeForce GTX 1080 Ti): در هر دو معیار برتر بود، ارائه 20% عملکرد بالاتر و 9 برابر بازده انرژی بهتر.

توضیح نمودار (ضمنی): یک نمودار میله‌ای می‌تواند به طور مؤثری این تحلیل مقایسه‌ای را تجسم کند. محور x سه پلتفرم (FPGA Stratix 10، CPU Core i7، GPU GTX 1080 Ti) را فهرست می‌کند. می‌توان از دو محور y استفاده کرد: محور چپ برای توان عملیاتی (گیگابیت بر ثانیه)، که یک میله بسیار بالا برای FPGA نشان می‌دهد؛ محور راست برای عملکرد نرمال‌شده (CPU=1)، که میله FPGA را در 372 و میله GPU را کمی بالاتر از 1 نشان می‌دهد. یک نمودار میله‌ای خوشه‌ای جداگانه می‌تواند بازده انرژی (عملیات بر ژول یا مشابه) را نشان دهد و برتری عظیم 644 برابری FPGA نسبت به CPU و 9 برابری نسبت به GPU را برجسته کند.

5. بینش اصلی و دیدگاه تحلیلی

بینش اصلی: این مقاله فقط درباره سریع کردن 3DES روی یک FPGA نیست؛ بلکه یک نقشه راه قانع‌کننده برای دموکراتیک کردن شتاب سخت‌افزاری است. نویسندگان نشان می‌دهند که با اعمال راهبردی HLS مبتنی بر OpenCL، می‌توان به عملکردی دست یافت که نه تنها CPUهای عمومی را به شدت تحت‌الشعاع قرار می‌دهد، بلکه در یک حوزه هدفمند از GPUهای سطح بالا نیز پیشی می‌گیرد، و در عین حال از هزینه مهندسی سرسام‌آور طراحی سنتی RTL اجتناب می‌کند.

جریان منطقی: استدلال روشمند است. با شناسایی نقاط درد بحرانی در نرم‌افزار (کند) و توسعه سنتی FPGA (سخت) شروع می‌شود. مسیر راه‌حل روشن است: استفاده از OpenCL/HLS برای بهره‌وری، سپس اعمال دنباله‌ای از بهینه‌سازی‌های درک‌شده اما حیاتی (خط لوله، برداری‌سازی، تکثیر) برای استخراج حداکثر کارایی سخت‌افزاری. مقایسه‌های عملکرد با خطوط پایه ثابت شده CPU و GPU، کل رویکرد را تأیید می‌کند.

نقاط قوت و ضعف: نقطه قوت انکارناپذیر است: دستاوردهای گزارش شده 372x/644x نسبت به یک CPU مدرن حیرت‌آور است و پتانسیل خام سخت‌افزار خاص حوزه را برجسته می‌کند. استفاده از OpenCL یک نقطه قوت عمده عملی است که با روندهای صنعت به سمت محاسبات ناهمگن در دسترس همسو است، همانطور که در چارچوب‌هایی مانند TensorFlow برای ML یا OneAPI دیده می‌شود. با این حال، یک نقص بحرانی، فقدان یک خط پایه مقایسه‌ای با یک هسته 3DES بهینه‌شده دستی با Verilog/VHDL روی همان FPGA Stratix 10 است. در حالی که مقایسه GPU/CPU برای موقعیت‌یابی بازار عالی است، جامعه HLS نیاز دارد که "شکاف کارایی" بین HLS و طراحی RTL متخصص برای این مسئله خاص را بداند. علاوه بر این، همانطور که تحقیقات دانشگاه تورنتو در مورد بهره‌وری HLS اشاره کرده است، انتزاع گاهی می‌تواند کنترل سطح پایین را مبهم کند و به طور بالقوه در مقایسه با یک پیاده‌سازی RTL بهینه، مقداری از عملکرد را از دست بدهد.

بینش‌های قابل اجرا: برای تیم‌های محصول، پیام روشن است: برای بارهای کاری رمزنگاری با حجم بالا و عملکرد ثابت (فراتر از فقط 3DES)، یک شتاب‌دهنده FPGA مبتنی بر OpenCL باید یک مدعی جدی در مرحله ارزیابی معماری باشد، به ویژه در جایی که بازده انرژی یک محدودیت کلیدی است (مانند مراکز داده لبه، تجهیزات شبکه). روش‌شناسی قابل انتقال است. برداشت واقعی، کتابچه راهنمای بهینه‌سازی است—چیدمان داده، پهنای بیت، خط لوله، برداری‌سازی، تکثیر. اینها مفاهیم جدیدی نیستند، اما دیدن اعمال منسجم آن‌ها در زمینه OpenCL برای شکست دادن یک GPU پرچم‌دار، یک نقطه اثبات قدرتمند است. گام بعدی اعمال همین نقشه راه به الگوریتم‌های رمزنگاری پساکوانتومی مانند Kyber یا Dilithium است که از نظر محاسباتی فشرده هستند و نامزدهای اصلی برای چنین شتاب‌دهی‌ای هستند.

6. جزئیات فنی و فرمول‌بندی ریاضی

فرآیند رمزگذاری 3DES با سه کلید مستقل (حالت EDE) به طور رسمی به صورت زیر تعریف می‌شود:

$Ciphertext = E_{K_3}(D_{K_2}(E_{K_1}(Plaintext)))$

که در آن تابع دور DES $F(R, K)$، که در هر یک از 16 دور در هر عملیات DES اعمال می‌شود، محور محاسبات است. این شامل موارد زیر است:

گسترش: نیمه راست 32 بیتی $R$ از طریق یک جدول جایگشت ثابت $E$ به 48 بیت گسترش می‌یابد.
ترکیب کلید: $R$ گسترش یافته با یک کلید دور 48 بیتی $K$ مشتق شده از کلید اصلی، XOR می‌شود.
جایگزینی (جعبه‌های S): نتیجه 48 بیتی به هشت قطعه 6 بیتی تقسیم می‌شود، هر کدام توسط یک جعبه جایگزینی غیرخطی (جعبه S) به یک خروجی 4 بیتی تبدیل می‌شود. این عملیات غیرخطی اصلی است: $S(B) = S_i(B)$، که در آن $B$ یک ورودی 6 بیتی و $S_i$ جدول جعبه S $i^{ام}$ است.
جایگشت (جعبه P): خروجی 32 بیتی از جعبه‌های S توسط یک تابع ثابت $P$ جایگشت می‌شود.

خروجی تابع دور به این صورت است: $F(R, K) = P(S(E(R) \oplus K))$.

خط لوله شتاب‌دهنده به طور مؤثر این تابع $F$ را 48 بار در هر بلوک داده محاسبه می‌کند، که مراحل خط لوله به عملیات گسترش، XOR، جستجوی جعبه S و جایگشت نگاشت می‌شوند، که همگی برای اجرای موازی بهینه شده‌اند.

7. چارچوب تحلیل و مثال موردی

چارچوب برای ارزیابی شتاب‌دهنده‌های مبتنی بر HLS:

هنگام تحلیل مقاله‌ای مانند این، یک چارچوب چندبعدی اعمال می‌کنیم:

عملکرد: توان عملیاتی مطلق (گیگابیت بر ثانیه) و تأخیر. مقایسه با خطوط پایه مرتبط (CPU، GPU، سایر کارهای FPGA).
بازدهی: عملکرد بر وات (بازده انرژی). استفاده از منابع (عناصر منطقی، BRAM، بلوک‌های DSP روی FPGA).
بهره‌وری: زمان توسعه صرفه‌جویی شده ضمنی با استفاده از OpenCL در مقابل HDL. قابلیت حمل کد در خانواده‌های FPGA.
اعتبار روش‌شناسی: آیا راهبردهای بهینه‌سازی به وضوح توضیح و توجیه شده‌اند؟ آیا تنظیمات آزمایشی (ابزارها، نسخه‌ها، داده‌های معیار) قابل تکرار است؟
عمومیت: آیا راهبردهای معماری اصلی (خط لوله، برداری‌سازی) می‌توانند روی الگوریتم‌های دیگر (مانند AES، SHA-3) اعمال شوند؟

مثال موردی: اعمال چارچوب

بیایید نقطه شماره 5 (عمومیت) را روی الگوریتم AES اعمال کنیم. راهبرد مقاله به شدت قابل انتقال است:

ساختار خط لوله موازی: AES-128 دارای 10 دور است. یک خط لوله 10 مرحله‌ای (یا عمیق‌تر از طریق بازکردن) می‌تواند ساخته شود.
بهینه‌سازی انتقال داده: همان بهینه‌سازی‌های پهنای داده و چیدمان برای تغذیه هسته AES اعمال می‌شود.
برداری‌سازی هسته: عملیات AES روی ماتریس حالت 128 بیتی به شدت در یک بلوک واحد قابل موازی‌سازی است.
تکثیر واحد محاسباتی: چندین هسته AES مستقل می‌توانند نمونه‌سازی شوند.

تغییر معماری اصلی، جایگزینی مسیر داده تابع $F$ DES با تبدیل دور AES (SubBytes، ShiftRows، MixColumns، AddRoundKey) خواهد بود. اصول بهینه‌سازی یکسان باقی می‌ماند. یک مطالعه مشابه توسط محققان ETH Zurich در مورد شتاب‌دهی AES مبتنی بر OpenCL روی FPGAها به جهش‌های عملکردی قابل مقایسه‌ای دست یافت، که عمومیت این رویکرد را تأیید می‌کند.

8. کاربردهای آینده و جهت‌های پژوهشی

موفقیت این طراحی چندین مسیر امیدوارکننده را باز می‌کند:

رمزنگاری پساکوانتومی (PQC): استانداردسازی الگوریتم‌های PQC (مانند توسط NIST) در حال انجام است. الگوریتم‌هایی مانند CRYSTALS-Kyber (محصورسازی کلید) و CRYSTALS-Dilithium (امضا) شامل محاسبات چندجمله‌ای پیچیده‌ای هستند که به شدت قابل موازی‌سازی و از نظر محاسباتی فشرده هستند، که آن‌ها را به اهداف ایده‌آلی برای این نقشه راه شتاب FPGA تبدیل می‌کند.
شتاب رمزنگاری همومورفیک: انجام محاسبات روی داده‌های رمز شده به شدت محدود به محاسبات است. شتاب‌دهنده‌های FPGA بهینه‌شده می‌توانند برخی طرح‌های همومورفیک را برای استفاده در دنیای واقعی عملی کنند.
واحدهای پردازش داده امن یکپارچه: ترکیب این شتاب‌دهنده رمزنگاری با کنترلرهای رابط شبکه (SmartNICها) یا کنترلرهای ذخیره‌سازی برای ارائه رمزگذاری/رمزگشایی شفاف با نرخ خط برای داده‌های در حال استراحت و داده‌های در حال حرکت درون مراکز داده.
بهبود زنجیره ابزار: پژوهش آینده می‌تواند بر خودکارسازی راهبردهای بهینه‌سازی ارائه شده در اینجا متمرکز شود. آیا کامپایلر OpenCL می‌تواند به طور خودکار پهنای بیت داده بهینه را استنباط کند یا تکثیر واحد محاسباتی را بر اساس تحلیل هسته و منابع FPGA هدف پیشنهاد دهد؟
شتاب‌دهنده‌های چابک چندالگوریتمی: طراحی هسته‌های قابل پیکربندی مجدد که می‌توانند بر اساس تقاضای بار کاری، از چندین رمز متقارن (3DES، AES، ChaCha20) پشتیبانی کنند و از قابلیت پیکربندی جزئی FPGAهای مدرن استفاده کنند.

9. مراجع

WU J., ZHENG B., NIE Y., CHAI Z. (2021). FPGA Accelerator for 3DES Algorithm Based on OpenCL. Computer Engineering, 47(12), 147-155, 162.
National Institute of Standards and Technology (NIST). (1999). Recommendation for the Triple Data Encryption Algorithm (TDEA) Block Cipher. NIST Special Publication 800-67.
Khronos Group. (2024). OpenCL Overview. https://www.khronos.org/opencl/
Intel Corporation. (2023). Intel FPGA SDK for OpenCL. https://www.intel.com/content/www/us/en/software/programmable/sdk-for-opencl/overview.html
Ismail, A., & Shannon, L. (2019). High-Level Synthesis for FPGA-Based Cryptography: A Survey. In Proceedings of the International Conference on Field-Programmable Technology (FPT).
University of Toronto, Department of Electrical & Computer Engineering. (2022). Research in High-Level Synthesis and FPGA Architectures. https://www.eecg.utoronto.ca/~jayar/research/hls.html
ETH Zurich, Secure & Reliable Systems Group. (2021). Hardware Acceleration of Modern Cryptography. https://srs.group.ethz.ch/research.html
Zhuo, L., & Prasanna, V. K. (2005). High-Performance Designs for Linear Algebra Operations on Reconfigurable Hardware. IEEE Transactions on Parallel and Distributed Systems.