آج کل غیر معمولی نرخوں پر معلومات کی فراہمی ، اور بہت سی فائلیں گوگل دستاویزات پر محفوظ ہیں۔ لہذا ، یہ واقعی ہے ، بہت زیادہ وقت اور کوشش کو بچانے کا ایک بہت اچھا طریقہ ہے۔
اس مضمون میں ، ہم ان طریقوں کی جانچ کریں گے جو عمل کو خود کار بنانے میں مدد کرتے ہیں۔ ہم گوگل دستاویزات کو کھرچنے اور اس طرح کی فائلوں کو JSON فارمیٹ میں بچانے کے لئے ازگر کا استعمال کریں گے جو ایک عام ڈیٹا اسٹوریج فارمیٹ ہے۔
عوامی دستاویزات پر محفوظ کردہ ڈیٹا کی خودکار بازیافت کو مختلف وجوہات کی بناء پر استعمال کیا جاسکتا ہے۔ یہ بغیر کسی دستی مداخلت کے معلومات کو جمع کرنے میں مدد کرتا ہے۔ یہ اس کے لئے بہت مفید ہے:
اس طرح کی فائلوں کے مواد کا تجزیہ کرنے کے لئے گوگل دستاویزات کو ازگر کے ساتھ کھرچنا بھی مفید ہے۔ یہ اس خدمت کو درست اور گہرائی سے معلومات حاصل کرنے کے لئے ایک بہت بڑا وسیلہ بناتا ہے جس پر بعد میں رپورٹوں یا ٹریننگ مشین لرننگ سسٹم کا استعمال کرتے ہوئے کارروائی کی جاتی ہے۔
مؤثر طریقے سے گوگل دستاویزات کے ڈیٹا سکریپنگ کو انجام دینے کے ل ، آپ کو اس کام کے لئے ازگر میں مناسب ٹولز کا انتخاب کرنے کی ضرورت ہے۔ کچھ لائبریری مندرجہ ذیل ہیں:
ان ٹولز کے مابین انتخاب کا انحصار اس بات پر ہے کہ آیا آپ کا مقصد فائل پڑھ رہا ہے یا اگر آپ ساختہ ڈیٹا پر API کال کا استعمال کرتے ہوئے اعلی درجے کی بات چیت کرنا چاہتے ہیں۔
اب ، میں چاہتا ہوں کہ ہم جانچ پڑتال کریں کہ کس طرح کام کرنے والے ماحول کو ترتیب دینے اور خاکہ نگاری کے عمل کو انجام دینے کے بارے میں جانا ہے۔
یقینی بنائیں کہ آپ نے ازگر انسٹال کیا ہے۔ اگلا:
python -m venv myenv
myenv\Scripts\activate
source myenv/bin/activate
pip install requests beautifulsoup4 google-api-python-client gspread google-auth
متعلقہ فائل کھولیں۔ دستاویز کو عوامی طور پر مجاز ہونا چاہئے۔ نیچے دیئے گئے مراحل پر عمل کریں:
اس کے بغیر ، آپ کے اسکرپٹس رسائی کی غلطیوں کو لوٹائیں گے۔
جیسے ہی کوئی دستاویز شائع ہوتی ہے ، اس کا URL مندرجہ ذیل شکل اختیار کرتا ہے:
https://docs.google.com/document/d/1AbCdEfGhIjKlMnOpQrStUvWxYz/view
1AbCdEfGhIjKlMnOpQrStUvWxYz - فائل ID. اس طرح آپ API یا HTML سکریپنگ کا استعمال کرتے ہوئے دستاویز تک رسائی حاصل کریں گے۔
ایسے دستاویزات سے معلومات نکالنے کے لئے یہاں دو بنیادی نقطہ نظر ہیں:
HTML کم پیچیدہ معاملات کے لئے کافی ہے ، جبکہ زیادہ پیچیدہ معاملات میں APIs ضروری ہیں۔
جب کسی فائل کو ویب پیج کے طور پر شائع کیا گیا ہے تو ، اس کا HTML بازیافت کرنا ممکن ہے اور پھر متعلقہ معلومات حاصل کرنے کے لئے اس کی تجزیہ کرنا ممکن ہے:
import requests
from bs4 import BeautifulSoup
url = 'https://docs.google.com/document/d/YOUR_ID/pub'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# Extract all text from the page
text = soup.get_text()
print(text)
else:
print(f'Access error: {response.status_code}')
یہاں کام کرنے والا الگورتھم ہے:
اگر مطلوبہ معلومات پر مزید صحت سے متعلق ضرورت ہو تو ، سب سے مناسب ذرائع کمپنی کے ذریعہ جاری کردہ ہینڈلرز اور دستاویزات کے ذریعہ ہے ، اس طرح گوگل دستاویزات API کا استعمال کرتے ہیں۔
اقدامات شروع کرنا:
ایسا لگتا ہے:
from google.oauth2 import service_account
from googleapiclient.discovery import build
# Path to your service account JSON file
SERVICE_ACCOUNT_FILE = 'path/to/your/service_account.json'
# Your document ID
DOCUMENT_ID = 'YOUR_ID'
# Access configuration
credentials = service_account.Credentials.from_service_account_file(
SERVICE_ACCOUNT_FILE,
scopes=['https://www.googleapis.com/ur/auth/documents.readonly']
)
service = build('docs', 'v1', credentials=credentials)
# Retrieve the document’s content
document = service.documents().get(documentId=DOCUMENT_ID).execute()
# Print the document title
print('Document title: {}'.format(document.get('title')))
جب آپ ڈیٹا حاصل کرتے ہیں تو ، اسے مؤثر طریقے سے اسٹور کرنا ضروری ہوتا ہے تاکہ بعد میں اسے بازیافت کیا جاسکے۔
JSON کو محفوظ کریں:
import json
# Assuming you have a variable `data` with extracted content
with open('output.json', 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=4)
اس کے بعد ، آپ اپنی ضروریات کے مطابق ڈیٹا کا تجزیہ یا تبدیل کرسکتے ہیں۔
خودکار اپ ڈیٹ کا تعی .ن آپ کے اسکرپٹ کو خود انجام دینے سے بہتر ہوگا۔
ذیل میں آٹومیشن اسکرپٹ کی ایک مثال ہے:
import time
def main():
# Your code to extract and save data
print("Data harvesting...")
# Run every 6 hours
while True:
main()
time.sleep(6 * 60 * 60)
اگرچہ یہ سیدھے سیدھے دکھائی دے سکتا ہے جبکہ گوگل دستاویزات ڈیٹا کو کھرچنے کے دوران ، مخصوص چیلنجوں میں شامل ہیں:
آخری اور یقینی طور پر سب سے اہم اخلاقیات ہیں:
ہم نے ازگر کا استعمال کرتے ہوئے گوگل دستاویزات کے ڈیٹا سکریپنگ میں گہرائی سے دیکھا ہے۔ آپ کے پروجیکٹ کی پیچیدگی کی سطح یہ حکم دے گی کہ آیا آپ HTML سکریپنگ کا انتخاب کرتے ہیں یا گوگل دستاویزات API۔ عوامی دستاویزات سے نمٹنے کے وقت ، احتیاط برتنا اور ویب سکریپنگ کے قانونی افواہوں پر غور کرنا بہتر ہے۔
اس طرح کے کھرچنے سے وسیع امکانات ملتے ہیں جیسے تحقیق کرنا ، تبدیلیوں کی نگرانی کرنا ، اور خصوصی خدمات کی ترقی۔ اس علم کی مدد سے ، آپ بغیر کسی رکاوٹ کے پبلک گوگل دستاویزات کو ازالہ کر سکتے ہیں اور بار بار چلنے والے کاموں کی آٹومیشن کو ہموار کرسکتے ہیں۔
تبصرے: 0