Apache Spark नि: शुल्क डेटा उपकरण

मुफ्त बड़े डेटा टूल के साथ इन-मेमोरी डेटा प्रोसेसिंग

बड़े पैमाने पर डेटा प्रोसेसिंग के लिए लचीला, हल्का और तेज एकीकृत एनालिटिक्स इंजन। Hadoop के साथ एकीकृत और कई भाषाओं का समर्थन करता है।

अवलोकन

अपाचे स्पार्क एक स्वतंत्र और खुला स्रोत बड़ा डेटा प्रोसेसिंग इंजन है। यह Hadoop MapReduce पर आधारित है और इसे तेजी से गणना के लिए डिज़ाइन किया गया है। Apache Spark Hadoop MapReduce मॉडल का विस्तार करता है ताकि अधिक प्रकार के गणनाओं, जैसे इंटरैक्टिव क्वेरी और स्ट्रीम प्रोसेसिंग के लिए अनुमति देने के लिए अधिक कुशलता से प्रदर्शन किया जा सके। यह इन-मेमोरी क्लस्टर कंप्यूटिंग का समर्थन करता है, जो एक एप्लिकेशन की प्रसंस्करण गति को बढ़ाता है। अपाचे स्पार्क विभिन्न प्रकार के वर्कलोड को संभालता है जिसमें पुनरावृत्त एल्गोरिदम, इंटरैक्टिव क्वेरी और स्ट्रीमिंग शामिल हैं। यह आउट-ऑफ-द-बॉक्स सुविधाओं जैसे कि फॉल्ट टॉलरेंस, एडवांस्ड एनालिटिक्स, लेजी इवैल्यूएशन, रियल-टाइम स्ट्रीम प्रोसेसिंग, इन-मेमोरी डेटा प्रोसेसिंग, और कई अन्य के साथ आता है। अपाचे स्पार्क में 80 से अधिक उच्च-स्तरीय ऑपरेटर उपलब्ध हैं, जिसका उपयोग समानांतर अनुप्रयोग बनाने के लिए किया जा सकता है। इसमें एक एपीआई भी शामिल है जो वास्तविक समय स्ट्रीम प्रसंस्करण के लिए अनुमति देता है। अपाचे स्पार्क में, सभी परिवर्तन प्रकृति में आलसी हैं। तात्पर्य यह है कि परिणाम तुरंत प्रदान करने के बजाय, यह मौजूदा एक से एक नया आरडीडी बनाता है। नतीजतन, सिस्टम के प्रदर्शन में सुधार हुआ है। अपाचे स्पार्क जावा, आर, स्काला, पायथन जैसी कई भाषाओं का समर्थन करता है जबकि हडोप केवल जावा भाषा का समर्थन करता है। अपाचे स्पार्क उन कार्यों के इन-मेमोरी प्रसंस्करण की अनुमति देता है जो बड़े पैमाने पर गति बढ़ाते हैं। Apache Spark Hadoop की HDFS फाइल सिस्टम और कई फाइल-फॉर्मेट्स जैसे पैदल, JSON, CSV, ORC के साथ अच्छी तरह से काम करता है। Hadoop को आसानी से अपाचे स्पार्क के साथ एक इनपुट डेटा स्रोत या गंतव्य के रूप में एकीकृत किया जा सकता है।

सिस्टम आवश्यकताएं

अपाचे स्पार्क स्थापित करने के लिए, आपके पास निम्नलिखित सॉफ्टवेयर्स होने चाहिए:

जावा
स्काला

विशेषताएँ

अपाचे स्पार्क की प्रमुख विशेषताएं निम्नलिखित हैं:

मुक्त और खुला स्रोत
फास्ट प्रोसेसिंग स्पीड
लचीला और उपयोग करने में आसानी
रियल-टाइम स्ट्रीम प्रोसेसिंग
पुन: प्रयोज्य
दोष सहिष्णुता
कई भाषाओं का समर्थन करें
Hadoop के साथ एकीकृत
लागत कुशल
उन्नत एनालिटिक्स
इन-मेमोरी कंप्यूटिंग

स्थापना

Ubuntu 18.04 पर अपाचे स्पार्क स्थापित करें

अपाचे स्पार्क डाउनलोड करने के लिए कमांड निष्पादित करें।

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

नीचे कमांड का उपयोग करके टार फ़ाइल निकालें।

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

निकाले गए निर्देशिका को स्थानांतरित करें।

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

.BASHRC फ़ाइल खोलें और इसमें नीचे लाइनों को जोड़ें।

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

निम्नलिखित कमांड के साथ पर्यावरण को सक्रिय करें।

$ source ~/.bashrc

स्पार्क मास्टर सर्वर शुरू करें।

$ start-master.sh

ब्राउज़र खोलें और वेब इंटरफ़ेस तक पहुँचने के लिए http: // सर्वर-ip: 8080 दर्ज करें।

अन्वेषण करना

आपको निम्नलिखित लिंक प्रासंगिक मिल सकते हैं:

2021 में शीर्ष 5 ओपन सोर्स बिग डेटा टूल