Feature Engineering for Machine Learning In Hindi




Feature Engineering for Machine Learning In Hindi

फ़ीचर इंजीनियरिंग मशीन लर्निंग का पूर्व-प्रसंस्करण चरण है, जिसका उपयोग कच्चे डेटा को सुविधाओं में बदलने के लिए किया जाता है, जिसका उपयोग मशीन लर्निंग या सांख्यिकीय मॉडलिंग का उपयोग करके एक भविष्य कहनेवाला मॉडल बनाने के लिए किया जा सकता है. मशीन लर्निंग में फीचर इंजीनियरिंग का उद्देश्य मॉडल के प्रदर्शन में सुधार करना है. इस विषय में, हम मशीन लर्निंग में फीचर इंजीनियरिंग के विवरण को समझेंगे. लेकिन विवरण में जाने से पहले, आइए पहले समझते हैं कि विशेषताएं क्या हैं? और फीचर इंजीनियरिंग की क्या आवश्यकता है?

मशीन लर्निंग के लिए फ़ीचर इंजीनियरिंग

मशीन लर्निंग जैसे की मैंने पहले ही बताया है की यह एक प्रकार का application होता है कृत्रिम होशियारी (AI) का जो की systems को यह ability प्रदान करता है की जिससे वो automatically learn कर सकें और जरूरत पड़ने पर खुद की improve भी कर सकें. ऐसा करने के लिए वो अपने experience को ही काम में लाते हैं न की उन्हें explicitly programmed किया जाता है. मशीन लर्निंग हमेशा कंप्यूटर प्रोग्राम के development पर focus करता है जिससे वो data को access कर सके और बाद में उसे खुद के learning के लिए इस्तमाल कर सके. इसमें learning data के टिप्पणियों से शुरू होता है, उदहारण के लिए प्रत्यक्ष अनुभव, या instruction, data में patterns को ढूंडना और भविस्य में बेहतर decisions लेने में आसानी हो. मशीन लर्निंग का मुख्य लक्ष्य है कैसे computers automatically learn करें बिना किसी मानव हस्तक्षेप या assistance के जिससे वो अपने actions को उस हिसाब से adjust कर सके.

एक विशेषता क्या है?

आम तौर पर, सभी मशीन लर्निंग एल्गोरिदम आउटपुट उत्पन्न करने के लिए इनपुट डेटा लेते हैं. इनपुट डेटा एक सारणीबद्ध रूप में रहता है जिसमें पंक्तियों (उदाहरण या अवलोकन) और कॉलम (चर या विशेषताएँ) होते हैं, और इन विशेषताओं को अक्सर सुविधाओं के रूप में जाना जाता है. उदाहरण के लिए, कंप्यूटर विज़न में एक छवि एक उदाहरण है, लेकिन छवि में एक रेखा विशेषता हो सकती है. इसी तरह, एनएलपी में, एक दस्तावेज़ एक अवलोकन हो सकता है, और शब्द गणना विशेषता हो सकती है. तो, हम कह सकते हैं कि एक विशेषता एक विशेषता है जो किसी समस्या को प्रभावित करती है या समस्या के लिए उपयोगी होती है.

फीचर इंजीनियरिंग क्या है?

फ़ीचर इंजीनियरिंग मशीन लर्निंग का प्री-प्रोसेसिंग चरण है, जो कच्चे डेटा से सुविधाओं को निकालता है. यह बेहतर तरीके से भविष्य कहनेवाला मॉडल के लिए एक अंतर्निहित समस्या का प्रतिनिधित्व करने में मदद करता है, जिसके परिणामस्वरूप, अनदेखी डेटा के लिए मॉडल की सटीकता में सुधार होता है. प्रेडिक्टिव मॉडल में प्रेडिक्टर वैरिएबल और एक परिणाम वैरिएबल होता है, और जबकि फीचर इंजीनियरिंग प्रक्रिया मॉडल के लिए सबसे उपयोगी प्रेडिक्टर वेरिएबल का चयन करती है.

2016 से, स्वचालित फीचर इंजीनियरिंग का उपयोग विभिन्न मशीन लर्निंग सॉफ़्टवेयर में भी किया जाता है जो कच्चे डेटा से स्वचालित रूप से सुविधाओं को निकालने में मदद करता है. एमएल में फीचर इंजीनियरिंग में मुख्य रूप से चार प्रक्रियाएं होती हैं: फीचर क्रिएशन, ट्रांसफॉर्मेशन, फीचर एक्सट्रैक्शन और फीचर सेलेक्शन.

इन प्रक्रियाओं को नीचे वर्णित किया गया है -

फ़ीचर क्रिएशन - फ़ीचर क्रिएशन एक प्रेडिक्टिव मॉडल में उपयोग किए जाने वाले सबसे उपयोगी वैरिएबल ढूंढ रहा है. प्रक्रिया व्यक्तिपरक है, और इसके लिए मानवीय रचनात्मकता और हस्तक्षेप की आवश्यकता होती है. नई सुविधाएँ जोड़, घटाव और राशन का उपयोग करके मौजूदा सुविधाओं को मिलाकर बनाई गई हैं, और इन नई सुविधाओं में बहुत लचीलापन है.

परिवर्तन - फीचर इंजीनियरिंग के परिवर्तन चरण में मॉडल की सटीकता और प्रदर्शन में सुधार के लिए भविष्यवक्ता चर को समायोजित करना शामिल है. उदाहरण के लिए, यह सुनिश्चित करता है कि मॉडल विभिन्न प्रकार के डेटा का इनपुट लेने के लिए लचीला है; यह सुनिश्चित करता है कि सभी चर समान पैमाने पर हैं, जिससे मॉडल को समझना आसान हो जाता है. यह मॉडल की सटीकता में सुधार करता है और यह सुनिश्चित करता है कि किसी भी कम्प्यूटेशनल त्रुटि से बचने के लिए सभी सुविधाएं स्वीकार्य सीमा के भीतर हैं.

फ़ीचर एक्सट्रैक्शन - फ़ीचर एक्सट्रैक्शन एक स्वचालित फीचर इंजीनियरिंग प्रक्रिया है जो कच्चे डेटा से उन्हें निकालकर नए चर उत्पन्न करती है. इस कदम का मुख्य उद्देश्य डेटा की मात्रा को कम करना है ताकि डेटा मॉडलिंग के लिए इसे आसानी से उपयोग और प्रबंधित किया जा सके. फ़ीचर निष्कर्षण विधियों में क्लस्टर विश्लेषण, टेक्स्ट एनालिटिक्स, एज डिटेक्शन एल्गोरिदम और प्रमुख घटक विश्लेषण (पीसीए) शामिल हैं.

फ़ीचर चयन - मशीन लर्निंग मॉडल विकसित करते समय, डेटासेट में केवल कुछ चर मॉडल के निर्माण के लिए उपयोगी होते हैं, और बाकी सुविधाएँ या तो बेमानी या अप्रासंगिक होती हैं. यदि हम इन सभी निरर्थक और अप्रासंगिक विशेषताओं के साथ डेटासेट इनपुट करते हैं, तो यह मॉडल के समग्र प्रदर्शन और सटीकता को नकारात्मक रूप से प्रभावित कर सकता है और कम कर सकता है. इसलिए डेटा से सबसे उपयुक्त विशेषताओं की पहचान करना और उनका चयन करना और अप्रासंगिक या कम महत्वपूर्ण विशेषताओं को हटाना बहुत महत्वपूर्ण है, जो मशीन लर्निंग में फीचर चयन की मदद से किया जाता है. "सुविधा चयन अनावश्यक, अप्रासंगिक, या शोर सुविधाओं को हटाकर मूल सुविधाओं से सबसे प्रासंगिक सुविधाओं के सबसेट का चयन करने का एक तरीका है."

मशीन लर्निंग में फीचर चयन का उपयोग करने के कुछ लाभ नीचे दिए गए हैं:-

  • यह आयामीता के अभिशाप से बचने में मदद करता है.

  • यह मॉडल के सरलीकरण में मदद करता है ताकि शोधकर्ता आसानी से इसकी व्याख्या कर सकें.

  • यह प्रशिक्षण के समय को कम करता है.

  • यह ओवरफिटिंग को कम करता है इसलिए सामान्यीकरण को बढ़ाता है.

मशीन लर्निंग में फीचर इंजीनियरिंग की आवश्यकता -

मशीन लर्निंग में, मॉडल का प्रदर्शन डेटा प्री-प्रोसेसिंग और डेटा हैंडलिंग पर निर्भर करता है. लेकिन अगर हम प्री-प्रोसेसिंग या डेटा हैंडलिंग के बिना एक मॉडल बनाते हैं, तो यह अच्छी सटीकता नहीं दे सकता है. जबकि, यदि हम एक ही मॉडल पर फीचर इंजीनियरिंग लागू करते हैं, तो मॉडल की सटीकता बढ़ जाती है. इसलिए, मशीन लर्निंग में फीचर इंजीनियरिंग मॉडल के प्रदर्शन में सुधार करती है. नीचे कुछ बिंदु दिए गए हैं जो फीचर इंजीनियरिंग की आवश्यकता की व्याख्या करते हैं:-

बेहतर सुविधाओं का मतलब लचीलापन है -

मशीन लर्निंग में, हम हमेशा अच्छे परिणाम प्राप्त करने के लिए इष्टतम मॉडल चुनने का प्रयास करते हैं. हालांकि, कभी-कभी गलत मॉडल चुनने के बाद भी, हम बेहतर भविष्यवाणियां प्राप्त कर सकते हैं, और यह बेहतर सुविधाओं के कारण है. सुविधाओं में लचीलापन आपको कम जटिल मॉडल चुनने में सक्षम करेगा. क्योंकि कम जटिल मॉडल चलाने में तेज़ होते हैं, समझने में आसान होते हैं और बनाए रखते हैं, जो हमेशा वांछनीय होता है.

बेहतर सुविधाओं का मतलब है सरल मॉडल -

यदि हम अपने मॉडल में अच्छी तरह से तैयार की गई सुविधाओं को इनपुट करते हैं, तो गलत मापदंडों (ज्यादा इष्टतम नहीं) का चयन करने के बाद भी, हम अच्छे परिणाम प्राप्त कर सकते हैं. फीचर इंजीनियरिंग के बाद, सबसे अनुकूलित मापदंडों के साथ सही मॉडल चुनने के लिए कड़ी मेहनत करने की आवश्यकता नहीं है. यदि हमारे पास अच्छी विशेषताएं हैं, तो हम संपूर्ण डेटा का बेहतर प्रतिनिधित्व कर सकते हैं और दी गई समस्या को सर्वोत्तम रूप से चित्रित करने के लिए इसका उपयोग कर सकते हैं.

बेहतर सुविधाओं का मतलब बेहतर परिणाम है -

जैसा कि पहले ही चर्चा की जा चुकी है, मशीन लर्निंग में, जैसा डेटा हम प्रदान करेंगे, वैसा ही आउटपुट मिलेगा. इसलिए, बेहतर परिणाम प्राप्त करने के लिए, हमें बेहतर सुविधाओं का उपयोग करने की आवश्यकता है.

फ़ीचर इंजीनियरिंग में कदम -

विभिन्न डेटा वैज्ञानिकों और एमएल इंजीनियरों के अनुसार फीचर इंजीनियरिंग के चरण भिन्न हो सकते हैं. हालाँकि, कुछ सामान्य चरण हैं जो अधिकांश मशीन लर्निंग एल्गोरिदम में शामिल हैं, और ये चरण इस प्रकार हैं:

डेटा तैयार करना - पहला कदम डेटा तैयार करना है. इस चरण में, विभिन्न संसाधनों से प्राप्त कच्चे डेटा को उपयुक्त प्रारूप में बनाने के लिए तैयार किया जाता है ताकि इसे एमएल मॉडल में उपयोग किया जा सके. डेटा तैयार करने में डेटा की सफाई, वितरण, डेटा वृद्धि, फ्यूजन, अंतर्ग्रहण या लोडिंग शामिल हो सकती है.

एक्सप्लोरेटरी एनालिसिस - एक्सप्लोरेटरी एनालिसिस या एक्सप्लोरेटरी डेटा एनालिसिस (ईडीए) फीचर इंजीनियरिंग का एक महत्वपूर्ण कदम है, जो मुख्य रूप से डेटा वैज्ञानिकों द्वारा उपयोग किया जाता है. इस चरण में विश्लेषण, निवेश डेटा सेट और डेटा की मुख्य विशेषताओं का सारांश शामिल है. डेटा स्रोतों के हेरफेर को बेहतर ढंग से समझने, डेटा विश्लेषण के लिए सबसे उपयुक्त सांख्यिकीय तकनीक खोजने और डेटा के लिए सर्वोत्तम सुविधाओं का चयन करने के लिए विभिन्न डेटा विज़ुअलाइज़ेशन तकनीकों का उपयोग किया जाता है.

बेंचमार्क - बेंचमार्किंग इस आधार रेखा से सभी चर की तुलना करने के लिए सटीकता के लिए एक मानक आधार रेखा निर्धारित करने की एक प्रक्रिया है. बेंचमार्किंग प्रक्रिया का उपयोग मॉडल की पूर्वानुमेयता में सुधार और त्रुटि दर को कम करने के लिए किया जाता है.

फ़ीचर इंजीनियरिंग तकनीक -

कुछ लोकप्रिय फीचर इंजीनियरिंग तकनीकों में शामिल हैं:-

1. आरोप

फ़ीचर इंजीनियरिंग अनुपयुक्त डेटा, गुम मान, मानवीय रुकावट, सामान्य त्रुटियां, अपर्याप्त डेटा स्रोत आदि से संबंधित है. डेटासेट के भीतर गुम मान एल्गोरिथम के प्रदर्शन को अत्यधिक प्रभावित करते हैं, और उनसे निपटने के लिए "इम्प्यूटेशन" तकनीक का उपयोग किया जाता है. डाटासेट के भीतर अनियमितताओं को संभालने के लिए इंप्यूटेशन जिम्मेदार है. उदाहरण के लिए, लापता मानों के एक बड़े प्रतिशत द्वारा पूरी पंक्ति या पूर्ण कॉलम से लापता मानों को हटाना. लेकिन साथ ही, डेटा आकार को बनाए रखने के लिए, लापता डेटा को लागू करना आवश्यक है, जिसे इस प्रकार किया जा सकता है:

संख्यात्मक डेटा इंप्यूटेशन के लिए, एक कॉलम में एक डिफ़ॉल्ट मान लगाया जा सकता है, और लापता मानों को कॉलम के माध्यम या माध्यिका से भरा जा सकता है. श्रेणीबद्ध डेटा इंप्यूटेशन के लिए, लापता मानों को एक कॉलम में अधिकतम हुए मान के साथ इंटरचेंज किया जा सकता है.

2. आउटलेर्स को संभालना

आउटलेयर विचलित मूल्य या डेटा बिंदु हैं जो अन्य डेटा बिंदुओं से बहुत दूर देखे जाते हैं ताकि वे मॉडल के प्रदर्शन को बुरी तरह प्रभावित कर सकें. इस फीचर इंजीनियरिंग तकनीक से आउटलेर्स को हैंडल किया जा सकता है. यह तकनीक पहले बाहरी लोगों की पहचान करती है और फिर उन्हें हटा देती है. आउटलेर्स की पहचान करने के लिए मानक विचलन का उपयोग किया जा सकता है. उदाहरण के लिए, किसी स्थान के भीतर प्रत्येक मान की औसत दूरी के लिए एक निश्चित होता है, लेकिन यदि कोई मान किसी निश्चित मान से अधिक दूर है, तो इसे एक बाहरी माना जा सकता है. जेड-स्कोर का उपयोग आउटलेर्स का पता लगाने के लिए भी किया जा सकता है.

3. लॉग ट्रांसफॉर्म

लॉगरिदम ट्रांसफॉर्मेशन या लॉग ट्रांसफॉर्म मशीन लर्निंग में आमतौर पर इस्तेमाल की जाने वाली गणितीय तकनीकों में से एक है. लॉग ट्रांस्फ़ॉर्म विषम डेटा को संभालने में मदद करता है, और यह ट्रांसफ़ॉर्मेशन के बाद वितरण को सामान्य से अधिक अनुमानित बनाता है. यह डेटा पर आउटलेर्स के प्रभाव को भी कम करता है, क्योंकि परिमाण के अंतर के सामान्य होने के कारण, एक मॉडल बहुत मजबूत हो जाता है.

4. बिनिंग

मशीन लर्निंग में, ओवरफिटिंग मुख्य मुद्दों में से एक है जो मॉडल के प्रदर्शन को ख़राब करता है और जो अधिक संख्या में मापदंडों और शोर डेटा के कारण होता है. हालांकि, फीचर इंजीनियरिंग की लोकप्रिय तकनीकों में से एक, "बिनिंग" का उपयोग शोर डेटा को सामान्य करने के लिए किया जा सकता है. इस प्रक्रिया में विभिन्न विशेषताओं को डिब्बे में विभाजित करना शामिल है.

5. फ़ीचर स्प्लिट

जैसा कि नाम से पता चलता है, फीचर स्प्लिट दो या दो से अधिक भागों में सुविधाओं को विभाजित करने और नई सुविधाओं को बनाने के लिए प्रदर्शन करने की प्रक्रिया है. यह तकनीक एल्गोरिदम को डेटासेट में पैटर्न को बेहतर ढंग से समझने और सीखने में मदद करती है. फीचर स्प्लिटिंग प्रक्रिया नई सुविधाओं को क्लस्टर और बिन्ड करने में सक्षम बनाती है, जिसके परिणामस्वरूप उपयोगी जानकारी निकालने और डेटा मॉडल के प्रदर्शन में सुधार होता है.

6. एक गर्म एन्कोडिंग

एक हॉट एन्कोडिंग मशीन लर्निंग में लोकप्रिय एन्कोडिंग तकनीक है. यह एक ऐसी तकनीक है जो श्रेणीबद्ध डेटा को एक रूप में परिवर्तित करती है ताकि उन्हें मशीन लर्निंग एल्गोरिदम द्वारा आसानी से समझा जा सके और इसलिए एक अच्छी भविष्यवाणी कर सके. यह बिना किसी जानकारी को खोए श्रेणीबद्ध डेटा के समूह को सक्षम बनाता है.

मशीन लर्निंग की categorization required Output के Basis पर :-

यह एक दूसरा प्रकार का categorization है machine लर्निंग tasks का जब हम केवल किसी machine-learned system का desired output को ही consider करते हैं. तो चलिए इसके संधर्व में जानते हैं :-

1. Classification : जब inputs को two या more classes में divide किया जाता है, और learner को कोई ऐसे model को produce करता है जो की assign करता है unseen inputs किसी एक या उससे ज्यादा (multi-label classification) classes को. इसे typically tackled किया जाता है supervised way में.

Spam filtering एक प्रकार का उदहारण है classification का, जहाँ पर inputs होते हैं email (या कोई दूसरा) messages साथ ही classes होते हैं “spam” और “not spam”.

2. Regression: यह एक प्रकार का supervised problem होता है, एक case जहाँ की आउटपुट निरंतर होते हैं discrete के बदले.

3. Clustering: यहाँ पर एक set of inputs को groups में divide कर दिया जाता है. इसके classification को छोड़कर, groups को पहले से जाना नहीं जा सकता, जो की इसे एक typically unsupervised task बनाती है. हमेशा याद रहें की Machine Learning केवल तब picture में आती है जब की problems को typical approaches से solve न किया जा सके.

फ़ीचर इंजीनियरिंग का महत्व -

आपके डेटा की विशेषताएं आपके द्वारा उपयोग किए जाने वाले भविष्य कहनेवाला मॉडल और आपके द्वारा प्राप्त किए जा सकने वाले परिणामों को सीधे प्रभावित करेंगी. आप यह कह सकते हैं कि: आप जितनी बेहतर सुविधाएँ तैयार करते हैं और चुनते हैं, उतने ही बेहतर परिणाम आप प्राप्त करेंगे. यह सच है, लेकिन यह भ्रामक भी है. आपके द्वारा प्राप्त किए गए परिणाम आपके द्वारा चुने गए मॉडल, आपके पास उपलब्ध डेटा और आपके द्वारा तैयार की गई सुविधाओं का एक कारक हैं. यहां तक ​​कि आपकी समस्या का निर्धारण और सटीकता का अनुमान लगाने के लिए आप जिन वस्तुनिष्ठ उपायों का उपयोग कर रहे हैं, वे भी एक भूमिका निभाते हैं. आपके परिणाम कई अन्योन्याश्रित गुणों पर निर्भर हैं. आपको बहुत अच्छी सुविधाओं की आवश्यकता है जो आपके डेटा में निहित संरचनाओं का वर्णन करती हैं.

बेहतर सुविधाओं का मतलब लचीलापन है-

आप "गलत मॉडल" (इष्टतम से कम) चुन सकते हैं और फिर भी अच्छे परिणाम प्राप्त कर सकते हैं. अधिकांश मॉडल डेटा में अच्छी संरचना का लाभ उठा सकते हैं. अच्छी सुविधाओं का लचीलापन आपको कम जटिल मॉडल का उपयोग करने की अनुमति देगा जो चलाने में तेज़, समझने में आसान और बनाए रखने में आसान हैं. यह बहुत ही वांछनीय है.

बेहतर सुविधाओं का मतलब है सरल मॉडल -

अच्छी तरह से इंजीनियर सुविधाओं के साथ, आप "गलत पैरामीटर" (इष्टतम से कम) चुन सकते हैं और फिर भी उन्हीं कारणों से अच्छे परिणाम प्राप्त कर सकते हैं. आपको सही मॉडल और सबसे अनुकूलित पैरामीटर चुनने के लिए उतनी मेहनत करने की आवश्यकता नहीं है. अच्छी सुविधाओं के साथ, आप अंतर्निहित समस्या के करीब हैं और आपके पास उपलब्ध सभी डेटा का प्रतिनिधित्व है और उस अंतर्निहित समस्या को सर्वोत्तम रूप से चित्रित करने के लिए उपयोग कर सकते हैं.

बेहतर सुविधाओं का मतलब बेहतर परिणाम है.

हमने जिन एल्गोरिदम का उपयोग किया, वे कागलर्स के लिए बहुत मानक हैं. [...] हमने अपने अधिकांश प्रयास फीचर इंजीनियरिंग में खर्च किए.

What is Feature Engineering?

फीचर इंजीनियरिंग पाइपलाइन प्रीप्रोसेसिंग चरण है जो कच्चे डेटा को उन सुविधाओं में बदल देता है जिनका उपयोग मशीन लर्निंग एल्गोरिदम में किया जा सकता है, जैसे कि भविष्य कहनेवाला मॉडल. प्रेडिक्टिव मॉडल में एक परिणाम वैरिएबल और प्रेडिक्टर वेरिएबल्स होते हैं, और यह फीचर इंजीनियरिंग प्रक्रिया के दौरान प्रेडिक्टिव मॉडल के लिए सबसे उपयोगी प्रेडिक्टर वैरिएबल बनाए और चुने जाते हैं. ऑटोमेटेड फीचर इंजीनियरिंग 2016 से कुछ मशीन लर्निंग सॉफ्टवेयर में उपलब्ध है. एमएल में फीचर इंजीनियरिंग में चार मुख्य चरण होते हैं: फीचर क्रिएशन, ट्रांसफॉर्मेशन, फीचर एक्सट्रैक्शन और फीचर सिलेक्शन. फ़ीचर इंजीनियरिंग में निर्माण, परिवर्तन, निष्कर्षण और सुविधाओं का चयन शामिल है, जिन्हें चर के रूप में भी जाना जाता है, जो सटीक एमएल एल्गोरिदम बनाने के लिए सबसे अनुकूल हैं. इन प्रक्रियाओं में शामिल हैं:

फीचर क्रिएशन: फीचर बनाने में वेरिएबल्स की पहचान करना शामिल है जो प्रेडिक्टिव मॉडल में सबसे उपयोगी होंगे. यह एक व्यक्तिपरक प्रक्रिया है जिसमें मानवीय हस्तक्षेप और रचनात्मकता की आवश्यकता होती है. नई व्युत्पन्न सुविधाओं को बनाने के लिए मौजूदा सुविधाओं को जोड़, घटाव, गुणा और अनुपात के माध्यम से मिश्रित किया जाता है जिसमें अधिक भविष्यवाणी शक्ति होती है.

परिवर्तन: परिवर्तन में मॉडल के प्रदर्शन में सुधार के लिए भविष्यवक्ता चर में हेरफेर करना शामिल है; जैसे यह सुनिश्चित करना कि मॉडल विभिन्न प्रकार के डेटा में लचीला है जिसे वह निगल सकता है; सुनिश्चित करना कि चर समान पैमाने पर हैं, जिससे मॉडल को समझना आसान हो जाता है; सटीकता में सुधार; और सभी सुविधाओं को मॉडल के लिए स्वीकार्य सीमा के भीतर सुनिश्चित करके कम्प्यूटेशनल त्रुटियों से बचना.

फ़ीचर एक्सट्रैक्शन: फ़ीचर एक्सट्रैक्शन नए वेरिएबल्स को कच्चे डेटा से निकालकर स्वचालित रूप से बनाना है. इस चरण का उद्देश्य मॉडलिंग के लिए अधिक प्रबंधनीय सेट में डेटा की मात्रा को स्वचालित रूप से कम करना है. कुछ फीचर निष्कर्षण विधियों में क्लस्टर विश्लेषण, टेक्स्ट एनालिटिक्स, एज डिटेक्शन एल्गोरिदम और प्रमुख घटक विश्लेषण शामिल हैं.

फ़ीचर चयन: फ़ीचर चयन एल्गोरिदम अनिवार्य रूप से विभिन्न विशेषताओं का विश्लेषण, न्याय और रैंक निर्धारित करता है कि कौन सी सुविधाएँ अप्रासंगिक हैं और उन्हें हटा दिया जाना चाहिए, कौन सी सुविधाएँ निरर्थक हैं और उन्हें हटा दिया जाना चाहिए, और कौन सी सुविधाएँ मॉडल के लिए सबसे उपयोगी हैं और उन्हें प्राथमिकता दी जानी चाहिए.

फ़ीचर इंजीनियरिंग एक प्रतिनिधित्व समस्या है

मशीन लर्निंग एल्गोरिदम नमूना डेटा से किसी समस्या का समाधान सीखते हैं. इस संदर्भ में, फीचर इंजीनियरिंग पूछती है: आपकी समस्या का समाधान जानने के लिए नमूना डेटा का सबसे अच्छा प्रतिनिधित्व क्या है? यह गहरा है. मशीन लर्निंग में अच्छा प्रदर्शन करना, यहां तक कि आर्टिफिशियल इंटेलिजेंस में भी सामान्य रूप से प्रतिनिधित्व समस्याओं पर वापस आ जाता है. उपयोग करने के लिए सबसे अच्छा प्रतिनिधित्व, एक प्राथमिकता जानने के लिए यह कठिन सामान है, शायद अनजाना (या सबसे अच्छा अट्रैक्टिव).

फ़ीचर इंजीनियरिंग एक कला है

यह एक कला है जैसे इंजीनियरिंग एक कला है, जैसे प्रोग्रामिंग एक कला है, जैसे दवा एक कला है. अच्छी तरह से परिभाषित प्रक्रियाएं हैं जो व्यवस्थित, सिद्ध और समझी जाने वाली हैं. डेटा एक चर है और हर बार अलग होता है. आप अभ्यास से यह तय करने में अच्छे हो जाते हैं कि किन प्रक्रियाओं का उपयोग करना है और कब करना है. अनुभवजन्य शिक्षुता द्वारा. इंजीनियरिंग की तरह, प्रोग्रामिंग की तरह, दवा की तरह, सामान्य रूप से मशीन लर्निंग की तरह. फीचर इंजीनियरिंग में महारत अभ्यास के साथ आती है, और जो अच्छा कर रहे हैं उसका अध्ययन कर रहे हैं.

फ़ीचर इंजीनियरिंग की उप-समस्याएं

फीचर इंजीनियरिंग को एक चीज मानना आम बात है. उदाहरण के लिए, मेरे लिए लंबे समय तक फीचर इंजीनियरिंग फीचर कंस्ट्रक्शन था. मैं अपने बारे में सोचूंगा "मैं अब फीचर इंजीनियरिंग कर रहा हूं" और मैं इस सवाल का पीछा करूंगा "अंतर्निहित समस्या का बेहतर वर्णन करने के लिए मैं कच्चे डेटा को कैसे विघटित या एकत्र कर सकता हूं?" लक्ष्य सही था, लेकिन दृष्टिकोण अनेकों में से एक था. इस खंड में हम इन कई दृष्टिकोणों और विशिष्ट उप-समस्याओं को देखते हैं जिन्हें संबोधित करने का इरादा है. प्रत्येक अपने आप में एक गहन लेख हो सकता है क्योंकि वे अभ्यास और अध्ययन के बड़े और महत्वपूर्ण क्षेत्र हैं.

फ़ीचर: आपके मॉडलिंग कार्य के लिए उपयोगी एक विशेषता

सारणीबद्ध डेटा को अवलोकनों या उदाहरणों (पंक्तियों) के संदर्भ में वर्णित किया जाता है जो चर या विशेषताओं (स्तंभ) से बने होते हैं. एक विशेषता एक विशेषता हो सकती है. एक विशेषता से अलग एक विशेषता का विचार, एक समस्या के संदर्भ में अधिक समझ में आता है. एक विशेषता एक विशेषता है जो आपकी समस्या के लिए उपयोगी या सार्थक है. मॉडलिंग की जा रही समस्या की संरचना के बारे में सीखने के लिए यह एक अवलोकन का एक महत्वपूर्ण हिस्सा है. मैं विशेषताओं से विशेषताओं को अलग करने के लिए "सार्थक" का उपयोग करता हूं. कुछ शायद नहीं. मुझे लगता है कि एक गैर-सार्थक विशेषता जैसी कोई चीज नहीं है. यदि किसी विशेषता का समस्या पर कोई प्रभाव नहीं पड़ता है, तो वह समस्या का भाग नहीं है. कंप्यूटर दृष्टि में, एक छवि एक अवलोकन है, लेकिन एक विशेषता छवि में एक रेखा हो सकती है. प्राकृतिक भाषा प्रसंस्करण में, एक दस्तावेज़ या एक ट्वीट एक अवलोकन हो सकता है, और एक वाक्यांश या शब्द गणना एक विशेषता हो सकती है. वाक् पहचान में, एक उच्चारण एक अवलोकन हो सकता है, लेकिन एक विशेषता एक शब्द या ध्वनि हो सकती है.

फ़ीचर महत्व: किसी सुविधा की उपयोगिता का अनुमान

आप वस्तुनिष्ठ रूप से सुविधाओं की उपयोगिता का अनुमान लगा सकते हैं. यह सुविधाओं का चयन करने के लिए एक पूर्व-कर्सर के रूप में सहायक हो सकता है. सुविधाओं को अंक आवंटित किए जाते हैं और फिर उनके अंकों के आधार पर रैंक किया जा सकता है. उच्चतम स्कोर वाली सुविधाओं को प्रशिक्षण डेटासेट में शामिल करने के लिए चुना जा सकता है, जबकि शेष को अनदेखा किया जा सकता है. फ़ीचर महत्व स्कोर आपको ऐसी जानकारी भी प्रदान कर सकता है जिसका उपयोग आप नई सुविधाओं को निकालने या बनाने के लिए कर सकते हैं, जो उपयोगी होने का अनुमान लगाया गया है, लेकिन समान हैं. एक विशेषता महत्वपूर्ण हो सकती है यदि यह आश्रित चर (जिस चीज की भविष्यवाणी की जा रही है) के साथ अत्यधिक सहसंबद्ध है. सहसंबंध गुणांक और अन्य अविभाज्य (प्रत्येक विशेषता को स्वतंत्र रूप से माना जाता है) विधियाँ सामान्य विधियाँ हैं. अधिक जटिल भविष्य कहनेवाला मॉडलिंग एल्गोरिदम अपने मॉडल का निर्माण करते समय आंतरिक रूप से विशेषता महत्व और चयन करते हैं. कुछ उदाहरणों में MARS, रैंडम फ़ॉरेस्ट और ग्रेडिएंट बूस्टेड मशीनें शामिल हैं. ये मॉडल मॉडल तैयार करने की प्रक्रिया के दौरान निर्धारित परिवर्तनशील महत्व पर भी रिपोर्ट कर सकते हैं.

निष्कर्ष ?

इस विषय में, हमने मशीन लर्निंग में फीचर इंजीनियरिंग, फीचर इंजीनियरिंग की कार्यप्रणाली, तकनीक आदि के बारे में विस्तार से बताया है. हालांकि फीचर इंजीनियरिंग मॉडल की सटीकता और प्रदर्शन को बढ़ाने में मदद करती है, लेकिन ऐसे अन्य तरीके भी हैं जो भविष्यवाणी सटीकता को बढ़ा सकते हैं. इसके अलावा, ऊपर दी गई तकनीकों में से, फीचर इंजीनियरिंग की कई और उपलब्ध तकनीकें हैं, लेकिन हमने सबसे अधिक इस्तेमाल की जाने वाली तकनीकों का उल्लेख किया है.