सूचना आजकल असाधारण दरों पर संवितरित होती है, और कई फाइलें Google डॉक्स पर संग्रहीत हैं। तो, यह वास्तव में है, Google डॉक्स डेटा स्क्रैपिंग बहुत समय और प्रयास को बचाने का एक शानदार तरीका है।
इस लेख में, हम उन तरीकों की जांच करेंगे जो प्रक्रिया को स्वचालित करने में मदद करते हैं। हम Google डॉक्स को स्क्रैप करने और JSON प्रारूप में ऐसी फ़ाइलों को सहेजने के लिए पायथन का उपयोग करेंगे जो एक सामान्य डेटा स्टोरेज प्रारूप है।
सार्वजनिक दस्तावेजों पर संग्रहीत डेटा की स्वचालित पुनर्प्राप्ति का उपयोग विभिन्न कारणों से किया जा सकता है। यह किसी भी मैनुअल हस्तक्षेप के बिना जानकारी के एकत्रीकरण को स्वचालित करने में मदद करता है। इसके लिए बहुत उपयोगी है:
पायथन के साथ Google डॉक्स को खुरचने के लिए ऐसी फ़ाइलों की सामग्री का विश्लेषण करने के लिए भी उपयोगी है। यह इस सेवा को सटीक और गहन जानकारी प्राप्त करने के लिए एक महान संसाधन बनाता है जिसे बाद में रिपोर्ट या प्रशिक्षण मशीन लर्निंग सिस्टम का उपयोग करके संसाधित किया जाता है।
Google डॉक्स डेटा स्क्रैपिंग को प्रभावी ढंग से करने के लिए, आपको इस कार्य के लिए पायथन में उपयुक्त उपकरण का चयन करने की आवश्यकता है। कुछ पुस्तकालय इस प्रकार हैं:
इन उपकरणों के बीच चयन इस बात पर निर्भर करता है कि क्या आपका लक्ष्य एक फ़ाइल पढ़ रहा है या यदि आप संरचित डेटा पर एपीआई कॉल का उपयोग करके उन्नत इंटरैक्शन करना चाहते हैं।
अब, मैं चाहता हूं कि हम यह जांच करें कि काम के माहौल को स्थापित करने और उल्लिखित प्रक्रियाओं के साथ कैसे किया जाए।
सुनिश्चित करें कि आपके पास पायथन स्थापित है। अगला:
python -m venv myenv
myenv\Scripts\activate
source myenv/bin/activate
pip install requests beautifulsoup4 google-api-python-client gspread google-auth
संबंधित फ़ाइल खोलें। दस्तावेज़ को सार्वजनिक रूप से अधिकृत किया जाना चाहिए। नीचे दिए गए चरणों का पालन करें:
इसके बिना, आपकी स्क्रिप्ट एक्सेस त्रुटियों को वापस कर देगी।
जैसे ही एक दस्तावेज़ प्रकाशित होता है, इसका URL निम्नलिखित प्रारूप लेता है:
https://docs.google.com/document/d/1AbCdEfGhIjKlMnOpQrStUvWxYz/view
1AbCdEfGhIjKlMnOpQrStUvWxYz - फ़ाइल आईडी। यह है कि आप API या HTML स्क्रैपिंग का उपयोग करके दस्तावेज़ का उपयोग कैसे करेंगे।
ऐसे डॉक्स से जानकारी निकालने के लिए यहां दो प्राथमिक दृष्टिकोण हैं:
HTML कम जटिल मामलों के लिए पर्याप्त है, जबकि API अधिक जटिल लोगों में आवश्यक हैं।
जब एक फ़ाइल को एक वेब पेज के रूप में प्रकाशित किया गया है, तो अपने HTML को पुनः प्राप्त करना संभव है और फिर प्रासंगिक जानकारी प्राप्त करने के लिए इसे पार्स करें:
import requests
from bs4 import BeautifulSoup
url = 'https://docs.google.com/document/d/YOUR_ID/pub'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# पृष्ठ से सभी पाठ निकालें
text = soup.get_text()
print(text)
else:
print(f'Access error: {response.status_code}')
यहाँ काम कर रहे एल्गोरिथ्म है:
यदि आवश्यक जानकारी पर अधिक सटीकता की आवश्यकता होती है, तो सबसे उपयुक्त साधन कंपनी द्वारा जारी किए गए हैंडलर और दस्तावेजों के माध्यम से है, इस प्रकार Google डॉक्स एपीआई का उपयोग करते हुए।
आरंभ करना चरण:
यह इस तरह दिख रहा है:
from google.oauth2 import service_account
from googleapiclient.discovery import build
# अपने सेवा खाते JSON फ़ाइल के लिए पथ
SERVICE_ACCOUNT_FILE = 'path/to/your/service_account.json'
# आपका दस्तावेज़ आईडी
DOCUMENT_ID = 'YOUR_ID'
# एक्सेस कॉन्फ़िगरेशन
credentials = service_account.Credentials.from_service_account_file(
SERVICE_ACCOUNT_FILE,
scopes=['https://www.googleapis.com/hi/auth/documents.readonly']
)
service = build('docs', 'v1', credentials=credentials)
# दस्तावेज़ की सामग्री को पुनः प्राप्त करें
document = service.documents().get(documentId=DOCUMENT_ID).execute()
# दस्तावेज़ शीर्षक प्रिंट करें
print('Document title: {}'.format(document.get('title')))
जब आप डेटा प्राप्त करते हैं, तो इसे प्रभावी ढंग से संग्रहीत करना आवश्यक है ताकि इसे बाद में पुनर्प्राप्त किया जा सके।
JSON को सहेजें:
import json
# यह मानते हुए कि आपके पास निकाली गई सामग्री के साथ एक चर `डेटा` है
with open('output.json', 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=4)
इसके बाद, आप अपनी आवश्यकताओं के अनुसार डेटा का विश्लेषण या बदल सकते हैं।
स्वचालित अपडेट सेट करना आपकी स्क्रिप्ट को स्वयं निष्पादित करने से बेहतर होगा।
नीचे एक स्वचालन स्क्रिप्ट का एक उदाहरण है:
import time
def main():
# डेटा निकालने और सहेजने के लिए आपका कोड
print("Data harvesting...")
# हर 6 घंटे में दौड़ें
while True:
main()
time.sleep(6 * 60 * 60)
जबकि यह सीधा दिखाई दे सकता है जबकि Google डॉक्स डेटा स्क्रैपिंग, विशिष्ट चुनौतियों में शामिल हैं:
अंतिम और निश्चित रूप से सबसे महत्वपूर्ण नैतिकता है:
हमने पायथन का उपयोग करके Google डॉक्स डेटा स्क्रैपिंग में गहराई से देखा है। आपकी परियोजना की जटिलता का स्तर यह तय करेगा कि आप HTML स्क्रैपिंग या Google डॉक्स एपीआई का चयन करते हैं या नहीं। सार्वजनिक दस्तावेजों से निपटने के दौरान, सावधानी बरतने और वेब स्क्रैपिंग के कानूनी प्रभावों पर विचार करना सबसे अच्छा है।
इस तरह की स्क्रैपिंग बड़ी संभावनाएं प्रदान करती है जैसे कि अनुसंधान का संचालन करना, परिवर्तन की निगरानी करना और विशेष सेवाओं को विकसित करना। इस ज्ञान के साथ, आप पायथन का उपयोग करके सार्वजनिक Google डॉक्स स्क्रैपिंग को स्वचालित रूप से स्वचालित कर सकते हैं और आवर्ती कार्यों के स्वचालन को सुव्यवस्थित कर सकते हैं।
टिप्पणियाँ: 0