Semalt बताते हैं कि HTML वेबसाइट्स से डेटा की जरूरत कैसे निकालें

नेट में प्रस्तुत जानकारी की एक बड़ी मात्रा को "असंरचित" माना जाता है क्योंकि यह ठीक से व्यवस्थित नहीं है। HTML वेबसाइटें उस तरह से अलग हैं जिसमें वे संगठित दस्तावेज हैं, और दस्तावेजों में प्रस्तुत पाठ अंतर्निहित HTML कोड के भीतर संरचित है।

HTML वेबसाइटों से तीन मुख्य डेटा निष्कर्षण विधियाँ हैं:

  • वेब पेज पर मौजूद टेक्स्ट को आपके कंप्यूटर में सहेजना;
  • डेटा निष्कर्षण के लिए कोड लिखना;
  • विशेष निष्कर्षण उपकरण का उपयोग करना;

1. बिना कोडिंग के HTML को वेबसाइट से कैसे निकाले

आप नीचे वर्णित चरणों का उपयोग करके एक वेब पेज सामग्री को परिमार्जन कर सकते हैं:

केवल पाठ निकालना

आप चाहते हैं कि पाठ युक्त एक वेबपेज खोलने के बाद, "पेज के रूप में सहेजें," या "इस रूप में सहेजें" विकल्प का चयन करें। "फ़ाइल का नाम" फ़ील्ड में फ़ाइल के लिए एक नाम टाइप करें और "इस प्रकार सहेजें" ड्रॉप-डाउन मेनू से, केवल "वेब पेज, एचटीएमएल" चुनें। "सहेजें" बटन पर क्लिक करें और कुछ सेकंड प्रतीक्षा करें।

उस पृष्ठ के सभी पाठ को HTML फ़ाइल के रूप में निकाला और सहेजा गया है। मूल पृष्ठ-स्वरूपण विकल्प बरकरार हैं, और आप ऐसे पाठ संपादकों में नोटपैड के रूप में सामग्री को संपादित कर सकते हैं।

संपूर्ण वेबपृष्ठ निकालना

"फ़ाइल" मेनू में "इस रूप में सहेजें" या "पृष्ठ के रूप में सहेजें" विकल्प चुनें। फिर, "Save as Type" ड्रॉप-डाउन मेनू से "वेब पेज, पूरा" पर क्लिक करें। "सहेजें" पर क्लिक करने के बाद, पाठ और छवियों को पृष्ठ से निकाला जाएगा और आप जहां चाहें सहेज सकते हैं। पाठ को एक HTML फ़ाइल में रखा गया है, जबकि चित्र एक फ़ोल्डर में संग्रहीत हैं।

2. कोडिंग का उपयोग करके HTML को वेबसाइट से निकालना

आप विशेष टूल का उपयोग करके सीधे HTML फ़ाइलों के साथ काम कर सकते हैं। साथ ही, आप सभी HTML टैग्स को हटाने के लिए एक कोड बना सकते हैं और XPath या रेगुलर एक्सप्रेशन का उपयोग करके HTML फ़ाइलों में मौजूद टेक्स्ट को बनाए रख सकते हैं। इस कार्य के लिए सबसे लोकप्रिय प्रोग्रामिंग भाषाओं में से कुछ पायथन, जावा, जेएस, गो, पीएचपी और एनओडीजे शामिल हैं।

3. वेब डेटा निष्कर्षण उपकरण का उपयोग करना

यदि आप कोड की एक पंक्ति लिखे बिना वेबसाइट से केवल HTML फ़ाइलों को निकालना चाहते हैं या कॉपी और पेस्ट विधि की यातना से बचते हैं, तो वेब स्क्रैपिंग टूल का उपयोग करें। वास्तव में, बहुत सारे सहायक उपकरण हैं जो एक वेबसाइट से आवश्यक जानकारी काट सकते हैं और फिर इसे संरचित प्रारूप में बदल सकते हैं। बस कुछ स्क्रैपिंग उपकरण का प्रयास करें, और आपको निश्चित रूप से वह मिलेगा जो आपकी स्क्रैपिंग आवश्यकताओं के लिए सबसे उपयुक्त है।

send email