2.1 DES Algorithm Core
DES एल्गोरिदम 64-बिट के प्लेनटेक्स्ट ब्लॉकों पर कार्य करता है। इसका मुख्य कार्य, फीस्टल नेटवर्क, को इस प्रकार दर्शाया जा सकता है:
डिजिटल मुद्रा, ब्लॉकचेन और क्लाउड डेटा एन्क्रिप्शन के क्षेत्रों में, पारंपरिक सॉफ्टवेयर-आधारित एन्क्रिप्शन और डिक्रिप्शन विधियों को धीमी गणना गति, उच्च होस्ट संसाधन खपत और पर्याप्त बिजली आवश्यकताओं सहित महत्वपूर्ण चुनौतियों का सामना करना पड़ता है। जबकि Verilog/VHDL का उपयोग करने वाले फील्ड प्रोग्रामेबल गेट ऐरे (FPGA) कार्यान्वयन हार्डवेयर त्वरण प्रदान करते हैं, वे लंबे विकास चक्रों और रखरखाव एवं उन्नयन में कठिनाइयों से ग्रस्त हैं। यह पत्र OpenCL फ्रेमवर्क का उपयोग करके 3DES एल्गोरिदम के लिए एक नवीन FPGA एक्सेलेरेटर डिजाइन प्रस्तावित करके इन सीमाओं को संबोधित करता है।
प्रस्तावित डिज़ाइन 48-पुनरावृत्ति पाइपलाइन समानांतर संरचना को लागू करता है। अनुकूलन रणनीतियों में कर्नल बैंडविड्थ उपयोग को बढ़ाने के लिए डेटा ट्रांसमिशन मॉड्यूल में डेटा संग्रहण समायोजन और डेटा बिट-चौड़ाई सुधार शामिल हैं, साथ ही एक कुशल पाइपलाइन समानांतर आर्किटेक्चर बनाने के लिए एल्गोरिदम एन्क्रिप्शन मॉड्यूल में निर्देश स्ट्रीम अनुकूलन शामिल है। कर्नल वेक्टराइजेशन और कंप्यूट यूनिट प्रतिकृति के माध्यम से अतिरिक्त प्रदर्शन लाभ प्राप्त किए जाते हैं।
Peak Throughput on Intel Stratix 10 GX2800
इंटेल कोर i7-9700 CPU बनाम प्रदर्शन लाभ
Energy Efficiency gain vs. CPU
Performance & Efficiency gain vs. NVIDIA GTX 1080 Ti GPU
ट्रिपल डेटा एन्क्रिप्शन स्टैंडर्ड (3DES) एल्गोरिदम DES एल्गोरिदम पर आधारित है, जो तीन क्रमिक DES ऑपरेशनों के माध्यम से सुरक्षा बढ़ाता है। जहां DES 56-बिट कुंजी और 16 पुनरावृत्तियों का उपयोग करता है, वहीं 3DES 168-बिट कुंजी और 48 पुनरावृत्तियों का उपयोग करता है।
DES एल्गोरिदम 64-बिट के प्लेनटेक्स्ट ब्लॉकों पर कार्य करता है। इसका मुख्य कार्य, फीस्टल नेटवर्क, को इस प्रकार दर्शाया जा सकता है:
3DES, DES को दो या तीन स्वतंत्र कुंजियों (EDE मोड) के साथ तीन बार लागू करता है: $Ciphertext = E_{K3}(D_{K2}(E_{K1}(Plaintext)))$। यह संरचना एकल DES की तुलना में ब्रूट-फोर्स हमलों के प्रति प्रतिरोध को काफी बढ़ा देती है।
एक्सेलेरेटर OpenCL के विषम संगणना मॉडल का लाभ उठाता है, जो कर्नेल प्रोग्रामों को FPGA उपकरणों पर संकलित और निष्पादित होने की अनुमति देता है। यह दृष्टिकोण सॉफ़्टवेयर की लचीलापन और हार्डवेयर के प्रदर्शन के बीच की खाई को पाटता है।
यह आर्किटेक्चर एक होस्ट (CPU) से बना है जो नियंत्रण प्रवाह और डेटा स्थानांतरण का प्रबंधन करता है, और एक डिवाइस (FPGA) जो कम्प्यूटेशनल रूप से गहन 3DES कर्नेल को निष्पादित करता है। FPGA कर्नेल को एक गहरी पाइपलाइन संरचना के साथ डिज़ाइन किया गया है ताकि एक साथ कई डेटा ब्लॉकों को संसाधित किया जा सके।
डिज़ाइन का मूल एक 48-चरण पाइपलाइन है जो 3DES के 48 पुनरावृत्तियों से मेल खाती है। उच्च घड़ी आवृत्ति और पाइपलाइन के पूर्ण उपयोग को सुनिश्चित करने के लिए प्रत्येक चरण को सावधानीपूर्वक संतुलित किया गया है, जिससे व्यक्तिगत संचालनों की विलंबता छिप जाती है।
यह मॉड्यूल होस्ट मेमोरी और FPGA ग्लोबल मेमोरी के बीच डेटा आवागमन को संभालता है। सैद्धांतिक चरम बैंडविड्थ के निकट पहुंचने के लिए बर्स्ट ट्रांसफर और संरेखित मेमोरी एक्सेस जैसी रणनीतियों का उपयोग किया जाता है। व्यापक AXI इंटरफेस (जैसे, 512-बिट) का उपयोग प्रभावी बैंडविड्थ में सुधार करने में एक प्रमुख कारक है।
यह मॉड्यूल 3DES फिस्टेल राउंड्स को लागू करता है। एस-बॉक्स, जिन्हें परंपरागत रूप से लुकअप टेबल (LUTs) के रूप में लागू किया जाता है, को FPGA के लॉजिक एलिमेंट्स के लिए अनुकूलित किया गया है। क्रमचय और विस्तार संचालन डेटापाथ में हार्डवायर्ड हैं।
एक्सेलेरेटर का समग्र थ्रूपुट $T$ को इस प्रकार मॉडल किया जा सकता है:
The accelerator was implemented on an Intel Stratix 10 GX2800 FPGA. The primary results are:
vs. CPU (Intel Core i7-9700): FPGA एक्सेलेरेटर 372x प्रदर्शन सुधार और ऊर्जा दक्षता (प्रदर्शन/वाट) में 644x का आश्चर्यजनक सुधार प्रदर्शित करता है। यह निश्चित, गणना-गहन कर्नेल के लिए FPGA की श्रेष्ठता को उजागर करता है।
बनाम GPU (NVIDIA GeForce GTX 1080 Ti): FPGA 20% उच्च थ्रूपुट और 9x बेहतर ऊर्जा दक्षता प्राप्त करता है। जबकि GPU नियमित डेटा पर बड़े पैमाने की समानांतरता में उत्कृष्ट हैं, FPGA बिट-स्तरीय संचालन और कस्टम पाइपलाइनों पर क्रिप्टोग्राफ़िक एल्गोरिदम में देखे गए अनुसार उच्च दक्षता प्राप्त कर सकते हैं।
यह डिज़ाइन FPGA संसाधनों का कुशलतापूर्वक उपयोग करता है। प्रमुख मापदंडों में शामिल हैं:
हार्डवेयर क्रिप्टो एक्सेलेरेटर्स के मूल्यांकन के लिए ढांचा:
केस स्टडी - क्लाउड डेटा एन्क्रिप्शन गेटवे: एक सुरक्षित क्लाउड स्टोरेज सेवा की कल्पना करें जो 3DES का उपयोग करके सभी निष्क्रिय डेटा को एन्क्रिप्ट करती है। एक ज़ीयॉन सर्वर पर केवल-सॉफ़्टवेयर समाधान एक बाधा बन सकता है। 3DES एन्क्रिप्शन को एक FPGA एक्सेलेरेटर कार्ड (जैसे स्ट्रैटिक्स 10 के साथ एक इंटेल PAC) पर ऑफ़लोड करके, सेवा उच्च समग्र थ्रूपुट प्राप्त कर सकती है, हार्डवेयर पाइपलाइन के कारण व्यक्तिगत अनुरोधों के लिए कम विलंबता, और सर्वर बिजली की खपत और CPU लोड को कम कर सकती है, जिससे अन्य कार्यों के लिए संसाधन मुक्त हो जाते हैं।
यह शोध पत्र केवल 3DES को तेज़ बनाने के बारे में नहीं है; यह मूर के नियम के बाद के युग में दक्षता पुनः प्राप्त करने के लिए एक रणनीतिक खाका है। जबकि उद्योग त्वरण के लिए GPU के कच्चे FLOPs से मोहित रहा है, लेखक एक स्पष्ट अनुस्मारक देते हैं: क्रिप्टोग्राफिक आदिम (primitives) जैसे विशिष्ट, सुस्पष्ट कर्नेल के लिए, FPGA की नियतात्मक, बिट-स्तरीय प्रोग्राम योग्यता सामान्य-उद्देश्य, अधिक बिजली खपत करने वाले CPU और GPU आर्किटेक्चर को पछाड़ सकती है। एक आधुनिक CPU पर 644x ऊर्जा दक्षता लाभ कोई क्रमिक सुधार नहीं है—यह डेटा सेंटर ऑपरेटरों के लिए एक प्रतिमान परिवर्तन है, जहां बिजली अंतिम लागत केंद्र है। यह कार्य Microsoft और Amazon जैसे हाइपरस्केलर में देखे गए व्यापक रुझान के साथ संरेखित है, जो नेटवर्क वर्चुअलाइजेशन और वीडियो ट्रांसकोडिंग जैसे कार्यों के लिए FPGA (और अब ASIC) बड़े पैमाने पर तैनात करते हैं, जो शिखर सैद्धांतिक थ्रूपुट पर प्रति-वाट प्रदर्शन को प्राथमिकता देते हैं।
लेखकों का तर्क प्रभावशाली और व्यवस्थित है। वे दोहरी समस्या की सही पहचान करते हैं: सॉफ़्टवेयर बहुत धीमा और अक्षम है, जबकि पारंपरिक HDL-आधारित FPGA विकास बहुत धीमा और कठोर है। उनका समाधान, OpenCL को एक हाई-लेवल सिंथेसिस (HLS) टूल के रूप में उपयोग करते हुए, दोनों मोर्चों पर सुंदरता से प्रहार करता है। अनुकूलन रणनीतियाँ एक स्पष्ट पदानुक्रम का पालन करती हैं: पहले, यह सुनिश्चित करें कि डेटा कुशलतापूर्वक कंप्यूट इकाइयों तक प्रवाहित हो सके (डेटा संग्रहण, बिट-चौड़ाई)। दूसरा, यह सुनिश्चित करें कि कंप्यूट इकाइयाँ स्वयं अधिकतम उपयोग में हों (निर्देश अनुकूलन, पाइपलाइनिंग)। अंत में, स्केल आउट (वेक्टराइजेशन, प्रतिकृति)। यह GPU कर्नेल के लिए अनुकूलन प्रक्रिया को दर्शाता है लेकिन एक ऐसे फैब्रिक पर लागू किया गया है जहाँ "कोर" सटीक कार्य के लिए कस्टम-निर्मित हैं। GTX 1080 Ti से तुलना विशेष रूप से स्पष्ट है—यह दर्शाता है कि एक अत्यधिक समानांतर प्रोसेसर के विरुद्ध भी, FPGA पर एक कस्टम डेटा पथ प्रदर्शन और, निर्णायक रूप से, दक्षता दोनों पर जीत सकता है।
शक्तियाँ: प्रदर्शन और दक्षता के परिणाम असाधारण और कठोर रूप से मात्रात्मक हैं। OpenCL का उपयोग महत्वपूर्ण डेवलपर पहुंच और भविष्य सुरक्षा प्रदान करता है, जैसा कि Khronos OpenCL विनिर्देशों में उल्लेख किया गया है जो विक्रेताओं के बीच पोर्टेबिलिटी सक्षम करते हैं। 3DES पर ध्यान केंद्रित, जो एक पुराना लेकिन अभी भी व्यापक रूप से तैनात मानक है (जैसे, वित्तीय प्रणालियों में), एक शुद्ध शैक्षणिक अभ्यास के बजाय आधुनिकीकरण की वास्तविक दुनिया की आवश्यकता को संबोधित करता है।
Flaws & Critical Gaps: पेपर की मुख्य कमजोरी इसका संकीर्ण दायरा है। NIST दिशानिर्देशों के अनुसार, नई प्रणालियों के लिए 3DES को चरणबद्ध तरीके से हटाकर AES-256 को प्राथमिकता दी जा रही है। यह कार्य कहीं अधिक प्रभावशाली होता यदि यह प्रदर्शित करता चुस्तता OpenCL दृष्टिकोण की लचीलापन को AES या एक पोस्ट-क्वांटम उम्मीदवार को भी लागू करके प्रदर्शित करें, जो फ्रेमवर्क के मूल्य को एक एल्गोरिदम से परे दिखाता है। इसके अलावा, विश्लेषण में साइड-चैनल भेद्यता पर चर्चा का अभाव है। एक हार्डवेयर कार्यान्वयन, विशेष रूप से उच्च थ्रूपुट के लक्ष्य वाला, टाइमिंग या पावर विश्लेषण हमलों के प्रति संवेदनशील हो सकता है। क्रिप्टोग्राफी पेपर के लिए इस सुरक्षा आयाम की अनदेखी करना एक महत्वपूर्ण चूक है। Mangard et al. जैसे शोधकर्ताओं का हार्डवेयर साइड-चैनल प्रतिरोध पर कार्य यहाँ गायब आवश्यक संदर्भ है।
For उत्पाद प्रबंधक क्लाउड या सुरक्षा उपकरण कंपनियों में: यह शोध क्रिप्टोग्राफ़िक कार्यभार (TLS समापन, भंडारण एन्क्रिप्शन) को ऑफ़लोड करने के लिए FPGA-आधारित एक्सेलेरेटर कार्ड तैनात करने की एक अवधारणा-सिद्धि है। केवल ऊर्जा बचत ही एक पायलट परियोजना को उचित ठहराती है। के लिए सुरक्षा वास्तुकारअपने विक्रेताओं पर दबाव डालें। मांग करें कि हार्डवेयर एक्सेलेरेटर्स, चाहे FPGA हो या ASIC, साइड-चैनल प्रतिरोधी डिज़ाइन को एक मानक सुविधा के रूप में शामिल करें, न कि बाद की सोच। के लिए Researchers & Developers3DES पर न रुकें। इस OpenCL पद्धति को एक आधार के रूप में उपयोग करें। अगला महत्वपूर्ण कदम एल्गोरिदम (AES-GCM, ChaCha20-Poly1305, SHA-3, Kyber, Dilithium) के एक सूट के लिए ओपन-सोर्स, अनुकूलित और साइड-चैनल प्रतिरोधी OpenCL कर्नेल का एक पुस्तकालय बनाना है। समुदाय को पोर्टेबल, कुशल और सुरक्षित बिल्डिंग ब्लॉक्स की आवश्यकता है, न कि केवल एक बार के प्रदर्शन की। Intel के oneAPI और Xilinx Vitis द्वारा उजागर टूलचेन परिपक्वता अंततः इसे संभव बना रही है। दौड़ केवल गति के लिए नहीं है; यह सुरक्षित, कुशल और अनुकूलनीय त्वरण के लिए है।