Conas sonraí Pinterest a scrape ag baint úsáide as Python

Tuairimí: 0

Scrúdaíonn an t -alt seo an modh chun Pinterest a scríobadh ag baint úsáide as Python agus Playwright, leabharlann uathoibrithe láidir. Feidhmíonn Pinterest, ar a dtugtar a ábhar amhairc saibhir, mar fhoras torthúil le haghaidh anailís sonraí nó tionscnaimh uathoibrithe. Go sonrach, d'fhéadfadh sé go mbeadh sé ríthábhachtach do chuid URLanna íomhá a bhaint as torthaí cuardaigh do thaighde nó do fhiontair tráchtála.

Éascaíonn an Playwright uathoibriú seisiún idirghníomhach ar fud na mbrabhsálaithe éagsúla. Tá gnéithe ann mar an tascradh ar iarratais líonra, a cheadaíonn eastóscadh sonraí díreach ó thrácht. Ina theannta sin, cuireann a chumas chun oibriú i mód gan rindreáil feabhas ar éifeachtúlacht agus inscálaitheacht scríobtha. Moltar úsáid seachvótálaithe, cé go bhfuil sé roghnach, chun anaithnideacht a chinntiú agus chun cabhrú le dul timpeall ar bhloic fhéideartha, agus mar sin an Playwright a dhaingniú mar uirlis is fearr chun ábhar amhairc a bhaint as Pinterest.

Socrú Playwright le haghaidh Python

Sula dtosaímid, ní mór duit Playwright a shuiteáil i do thimpeallacht Python. Is féidir leat é a shuiteáil ag úsáid Pip:


pip install playwright

Nuair a bheidh tú suiteáilte, beidh ort binaries brabhsálaí a shuiteáil:


playwright install

Anois, déanaimis súil ar script bhunúsach chun URLanna íomhá Pinterest a scrape.

An próiseas chun sonraí a bhaint as Pinterest

Cuimsíonn an script, a bhfuil an leagan iomlán díobh curtha i láthair thíos, na heilimintí seo a leanas:

Príomhfheidhm

Tógann an phríomhfheidhm URL cheist chuardaigh Pinterest bunaithe ar ionchur an úsáideora, m.sh., https://in.pinterest.com/search/pins/?q=halloween%20decor, agus ansin seolann sí é chuig an bhfeidhm capture_images_from_pinterest.

Tascradh agus scagadh

Éisteann an leathanach drámadóra le haghaidh freagairtí líonra ag baint úsáide as page.on('response', ...).

Scaipeann an fheidhm handle_response freagraí líonra, ag cinntiú nach ndéantar ach iad siúd a bhfuil íomhánna agus URLanna de chineál acmhainní acu a chríochnaíonn isteach .jpg a ghabháil.

Sonraí a shábháil ar CSV

Tar éis dóibh URLanna íomhá a bhailiú, sábhálaimid iad i gcomhad CSV darb ainm pinterest_images.csv, rud a fhágann go bhfuil sé éasca na sonraí scríobtha a onnmhairiú agus a anailísiú.

Cód Comhlánaithe

Seo an cód Python a scríobhann torthaí cuardaigh Pinterest agus sleachta gach URL íomhá:


import asyncio
from playwright.async_api import async_playwright

async def capture_images_from_pinterest(url):
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        # Stóráil URLanna Íomhá le '.jpg' ag críochnú
        image_urls = []

        # Feidhm chun freagairtí líonra a thascradh agus a phróiseáil
        page.on('response', lambda response: handle_response(response, image_urls))

        # Téigh go dtí an URL
        await page.goto(url)

        # Fan go socróidh gníomhaíocht líonra (coigeartaigh más gá)
        await page.wait_for_timeout(10000)

        # Dún an brabhsálaí
        await browser.close()

        return image_urls

# Feidhm láimhseála chun seiceáil a dhéanamh ar URLanna íomhá .jpg
def handle_response(response, image_urls):
    if response.request.resource_type == 'image':
        url = response.url
        if url.endswith('.jpg'):
            image_urls.append(url)

# An phríomhfheidhm chun an tasc async a reáchtáil
async def main(query):
    url = f"https://in.pinterest.com/search/pins/?q={query}"
    images = await capture_images_from_pinterest(url)
    
    # Sábháil íomhánna chuig comhad CSV
    with open('pinterest_images.csv', 'w') as file:
        for img_url in images:
            file.write(f"{img_url}\n")

    print(f"Saved {len(images)} image URLs to pinterest_images.csv")

# Rith an phríomhfheidhm async
query = 'halloween decor'
asyncio.run(main(query))

Proxies a bhunú sa Playwright

Is féidir le scríobadh Pinterest a theorannú ráta a theorannú nó fiú toirmisc má dhéanann tú an iomarca iarratais ón seoladh IP céanna. Cabhraíonn seachvótálaithe leis seo a mhaolú trí d'iarratais a ródú trí sheoltaí éagsúla IP, rud a chiallaíonn go bhfuil sé cosúil go bhfuil ilúsáideoirí ag brabhsáil Pinterest.

Cén fáth a n -úsáidtear seachvótálaithe:

  • Seachain Toirmisc IP: Is féidir le Pinterest do sheoladh IP a bhlocáil go sealadach má bhraitheann sé gníomhaíocht neamhghnách. Cabhraíonn seachvótálaithe leis seo a sheachaint trí sheoltaí IP a rothlú.
  • Scalability: Trí úsáid a bhaint as seachvótálaithe is féidir iarrachtaí scríobtha a scálú, rud a laghdóidh an baol blocáil.
  • Teorainneacha Iarratais Méadaithe: Trí úsáid a bhaint as seachvótálaithe is féidir leat níos mó sonraí a scrape a scrape gan teorainneacha ráta a spreagadh.

Is féidir leat seachvótálaithe a bhunú go héasca le Playwright ag baint úsáide as an argóint seachfhreastalaí sa mhodh seolta. Sa sampla seo, cuir seoladh do sheachfhreastalaí, uimhir chalafoirt agus dintiúir seachfhreastalaí in ionad “http: // your-proxy-address: port”.


async def capture_images_from_pinterest(url):
    async with async_playwright() as p:
        # Cuir seachvótálaí leis anseo
        browser = await p.chromium.launch(headless=True, proxy={"server": "http://your-proxy-address:port", "username": "username", "password": "password"})
        page = await browser.new_page()

Dá bhrí sin, cuireann comhtháthú drámadóra le seachvótálaí le héifeachtacht uathoibrithe scríobtha. Ní hamháin go maolaíonn an teaglaim seo na rioscaí a bhaineann le meicníochtaí frith-bot ach cuireann sé le héifeachtúlacht fhoriomlán na bpróiseas bailithe sonraí.

Dúshláin a bhaineann le sonraí Pinterest a scríobadh

Tá roinnt dúshlán ann a d'fhéadfadh a bheith ag úsáideoirí agus Playwright á n -úsáid acu chun sonraí Pinterest a scrape:

  • Luchtaíocht Ábhar Dinimiciúil: Úsáideann Pinterest teicnící luchtaithe ábhar dinimiciúil, lena n-áirítear scrollaigh gan teorainn agus íomhánna leiscithe leisciúil. Éilíonn sé seo uirlisí a scríobadh ar féidir leo sonraí neamhghnácha a láimhseáil go héifeachtach.
  • Bearta Frith-Scraping: Fostaíonn láithreáin ghréasáin mar Pinterest meicníochtaí frith-scrapála éagsúla, amhail teorannú ráta, chun bac a chur ar iarrachtaí eastósctha sonraí uathoibrithe.

Is féidir úsáid a bhaint as an Playwright le seachvótálaithe agus i mód gan dídean na dúshláin seo a mhaolú go héifeachtach, an baol bloic a laghdú agus éifeachtúlacht eastósctha sonraí a fheabhsú.

Tuairimí:

0 tuairimí