گوگل کے رجحانات سے ڈیٹا کو کھرچنے کے لئے ازگر اور پلے رائٹ کا استعمال کرنے سے مطلوبہ الفاظ کی مقبولیت اور وقت کے ساتھ رجحان کی شفٹوں کی نگرانی کا تفصیلی امتحان مل جاتا ہے۔ یہ نقطہ نظر مارکیٹنگ کے تجزیات کے لئے اہم بصیرت فراہم کرتا ہے۔
کوڈ میں غوطہ لگانے سے پہلے ، یقینی بنائیں کہ آپ کے پاس درج ذیل ٹولز انسٹال ہیں:
آپ PIP کا استعمال کرتے ہوئے ڈرامہ رائٹ انسٹال کرسکتے ہیں:
pip install playwright
اسینکرونس کوڈ کے ساتھ ڈرامہ رائٹ استعمال کرنے کے ل you ، آپ کو اسینسیو لائبریری کی بھی ضرورت ہوگی ، جو پہلے سے طے شدہ طور پر ازگر 3.7+ میں شامل ہے۔
ہم گوگل ٹرینڈس ویب سائٹ پر تشریف لے جانے اور ٹرینڈ ڈیٹا پر مشتمل CSV فائلوں کو ڈاؤن لوڈ کرنے کے لئے ، ایک طاقتور براؤزر آٹومیشن ٹول ، ڈرامہ رائٹ کا استعمال کریں گے۔ یہ سبق آپ کو پورے عمل میں رہنمائی کرے گا۔
پہلے ، یقینی بنائیں کہ ڈرامہ نگار انسٹال ہے:
playwright install
اگر آپ تمام براؤزر انسٹال نہیں کرنا چاہتے ہیں تو آپ صرف کرومیم براؤزر کو انسٹال کرنے کے لئے اس کمانڈ کا استعمال کرتے ہیں۔
playwright install chromium
جب گوگل جیسے پلیٹ فارم کو کھرچنا ، جو بوٹ سرگرمی کا فعال طور پر مقابلہ کرتے ہیں تو ، پراکسیوں کا استعمال ضروری ہے۔ پراکسیز آئی پی گردش کو قابل بناتے ہیں ، جو بلاک ہونے کے خطرے کو کم کرنے میں مدد کرتے ہیں۔ ہمارے اسکرپٹ میں ، ہم اپنی درخواستوں کو راستہ بنانے کے لئے نجی پراکسیوں کا استعمال کرتے ہیں۔
proxy = {
"server": "IP:PORT",
"username": "your_username",
"password": "your_password"
}
متغیرات IP ، پورٹ ، صارف نام ، اور پاس ورڈ کو اپنے پراکسی سرور سے اصل ڈیٹا کے ساتھ تبدیل کریں۔
اس مثال میں ، ہم سب سے پہلے گوگل ٹرینڈز پیج پر جانے سے پہلے کسی بھی ممکنہ بلاکس کو نظرانداز کرنے کے لئے گوگل ڈاٹ کام پر جائیں۔ یہ عام صارف کے طرز عمل کی نقل کرنے اور پتہ لگانے سے بچنے کے لئے کیا جاتا ہے۔
اس اقدام میں گوگل کے ذریعہ پرچم لگانے اور بلاک ہونے سے بچنے کے لئے ابتدائی اقدامات شامل ہیں:
import asyncio
from playwright.async_api import Playwright, async_playwright
async def run(playwright: Playwright) -> None:
# Launching the browser with proxy settings
browser = await playwright.chromium.launch(headless=False, proxy={
"server": "IP:PORT",
"username": "your_username",
"password": "your_password"
})
# Creating a new browser context
context = await browser.new_context()
# Opening a new page
page = await context.new_page()
# Visiting Google to mimic normal browsing
await page.goto("https://google.com")
اگلا ، براہ راست گوگل ٹرینڈز پیج پر جائیں جہاں مطلوبہ ڈیٹا واقع ہے۔ گوگل ٹرینڈس ڈیٹا کو براہ راست CSV فارمیٹ میں ڈاؤن لوڈ کرنے کے اختیارات فراہم کرتا ہے ، جو نکالنے کے عمل کو آسان بناتا ہے۔ ڈیٹا ڈاؤن لوڈ شروع کرنے کے لئے "ڈاؤن لوڈ" کے بٹن پر کلک کرنے کی کارروائی کو خود کار بنائیں۔ اس سے دستی مداخلت کے بغیر رجحان کے اعداد و شمار کو نکالنے کی اجازت ملتی ہے۔ ایک بار جب "ڈاؤن لوڈ" کا بٹن نظر آتا ہے تو ، آٹومیشن کو اس پر کلک کرنے کے لئے آگے بڑھنا چاہئے ، جس میں سی ایس وی فائل کو ڈاؤن لوڈ کرنا شروع کیا جائے جس میں مطلوبہ رجحان کا ڈیٹا موجود ہو۔
# Navigating to Google Trends
await page.goto("https://trends.google.com/trends/explore?q=%2Fg%2F11bc6c__s2&date=now%201-d&geo=US&hl=en-US")
# Waiting for the download button and clicking it
async with page.expect_download() as download_info:
await page.get_by_role("button", name="file_download").first.click()
# Handling the download
download = await download_info.value
print(download.suggested_filename)
ڈاؤن لوڈ کردہ CSV فائل آپ کے مقامی آلہ پر ایک مخصوص ڈائرکٹری میں خود بخود محفوظ ہوجاتی ہے۔
# Saving the downloaded file
await download.save_as("/path/to/save/" + download.suggested_filename)
ڈرامہ رائٹ کا استعمال کرتے ہوئے CSV فائل کے طور پر گوگل ٹرینڈس ڈیٹا کو ڈاؤن لوڈ کرنے کا مکمل کوڈ یہ ہے:
import asyncio
import os
import re
from playwright.async_api import Playwright, async_playwright
async def run(playwright: Playwright) -> None:
# Launch browser with proxy settings
browser = await playwright.chromium.launch(headless=False, proxy={
"server": "IP:PORT",
"username": "your_username",
"password": "your_password"
})
# Create a new browser context
context = await browser.new_context()
# Open a new page
page = await context.new_page()
# Visit Google to avoid detection
await page.goto("https://google.com")
# Navigate to Google Trends
await page.goto("https://trends.google.com/trends/explore?q=%2Fg%2F11bc6c__s2&date=now%201-d&geo=US&hl=en-US")
# Click the download button
async with page.expect_download() as download_info:
await page.get_by_role("button", name=re.compile(r"file_download")).first.click()
# Save the downloaded file
download = await download_info.value
destination_path = os.path.join("path/to/save", download.suggested_filename)
await download.save_as(destination_path)
# Close the context and browser
await context.close()
await browser.close()
async def main() -> None:
async with async_playwright() as playwright:
await run(playwright)
asyncio.run(main())
اس گائیڈ کے بعد ، آپ ٹرینڈ ڈیٹا کو موثر انداز میں ڈاؤن لوڈ کرسکتے ہیں ، پراکسی گردش کا انتظام کرسکتے ہیں ، اور بائی پاس بوٹ پروٹیکشن میکانزم کو بائی پاس کرسکتے ہیں۔ موثر مسدود کرنے سے بچنے کے ل reliable ، قابل اعتماد پراکسی سرورز کا استعمال بہت ضروری ہے۔ رہائشی پراکسی ، جو متحرک IP پتے پیش کرتے ہیں اور اسے گردش کی ترتیب کی ضرورت نہیں ہوتی ہے ، ان کی سفارش کی جاتی ہے۔ متبادل کے طور پر ، جامد ISP پراکسی بھی موثر ہیں۔ آئی پی ایس کی مطلوبہ تعداد خریدیں اور اپنے اسکرپٹ میں باقاعدہ آئی پی گردش مرتب کریں۔ یا تو انتخاب تیزی سے اور ہموار ڈیٹا سکریپنگ کی سہولت فراہم کرنے ، مسدود کرنے اور کیپچا کے کم سے کم خطرہ کو یقینی بناتا ہے۔
تبصرے: 0