Scrúdaíonn an t -alt seo an modh chun Pinterest a scríobadh ag baint úsáide as Python agus Playwright, leabharlann uathoibrithe láidir. Feidhmíonn Pinterest, ar a dtugtar a ábhar amhairc saibhir, mar fhoras torthúil le haghaidh anailís sonraí nó tionscnaimh uathoibrithe. Go sonrach, d'fhéadfadh sé go mbeadh sé ríthábhachtach do chuid URLanna íomhá a bhaint as torthaí cuardaigh do thaighde nó do fhiontair tráchtála.
Éascaíonn an Playwright uathoibriú seisiún idirghníomhach ar fud na mbrabhsálaithe éagsúla. Tá gnéithe ann mar an tascradh ar iarratais líonra, a cheadaíonn eastóscadh sonraí díreach ó thrácht. Ina theannta sin, cuireann a chumas chun oibriú i mód gan rindreáil feabhas ar éifeachtúlacht agus inscálaitheacht scríobtha. Moltar úsáid seachvótálaithe, cé go bhfuil sé roghnach, chun anaithnideacht a chinntiú agus chun cabhrú le dul timpeall ar bhloic fhéideartha, agus mar sin an Playwright a dhaingniú mar uirlis is fearr chun ábhar amhairc a bhaint as Pinterest.
Sula dtosaímid, ní mór duit Playwright a shuiteáil i do thimpeallacht Python. Is féidir leat é a shuiteáil ag úsáid Pip:
pip install playwright
Nuair a bheidh tú suiteáilte, beidh ort binaries brabhsálaí a shuiteáil:
playwright install
Anois, déanaimis súil ar script bhunúsach chun URLanna íomhá Pinterest a scrape.
Cuimsíonn an script, a bhfuil an leagan iomlán díobh curtha i láthair thíos, na heilimintí seo a leanas:
Tógann an phríomhfheidhm URL cheist chuardaigh Pinterest bunaithe ar ionchur an úsáideora, m.sh., https://in.pinterest.com/search/pins/?q=halloween%20decor, agus ansin seolann sí é chuig an bhfeidhm capture_images_from_pinterest.
Éisteann an leathanach drámadóra le haghaidh freagairtí líonra ag baint úsáide as page.on('response', ...).
Scaipeann an fheidhm handle_response freagraí líonra, ag cinntiú nach ndéantar ach iad siúd a bhfuil íomhánna agus URLanna de chineál acmhainní acu a chríochnaíonn isteach .jpg a ghabháil.
Tar éis dóibh URLanna íomhá a bhailiú, sábhálaimid iad i gcomhad CSV darb ainm pinterest_images.csv, rud a fhágann go bhfuil sé éasca na sonraí scríobtha a onnmhairiú agus a anailísiú.
Seo an cód Python a scríobhann torthaí cuardaigh Pinterest agus sleachta gach URL íomhá:
import asyncio
from playwright.async_api import async_playwright
async def capture_images_from_pinterest(url):
async with async_playwright() as p:
browser = await p.chromium.launch(headless=True)
page = await browser.new_page()
# Stóráil URLanna Íomhá le '.jpg' ag críochnú
image_urls = []
# Feidhm chun freagairtí líonra a thascradh agus a phróiseáil
page.on('response', lambda response: handle_response(response, image_urls))
# Téigh go dtí an URL
await page.goto(url)
# Fan go socróidh gníomhaíocht líonra (coigeartaigh más gá)
await page.wait_for_timeout(10000)
# Dún an brabhsálaí
await browser.close()
return image_urls
# Feidhm láimhseála chun seiceáil a dhéanamh ar URLanna íomhá .jpg
def handle_response(response, image_urls):
if response.request.resource_type == 'image':
url = response.url
if url.endswith('.jpg'):
image_urls.append(url)
# An phríomhfheidhm chun an tasc async a reáchtáil
async def main(query):
url = f"https://in.pinterest.com/search/pins/?q={query}"
images = await capture_images_from_pinterest(url)
# Sábháil íomhánna chuig comhad CSV
with open('pinterest_images.csv', 'w') as file:
for img_url in images:
file.write(f"{img_url}\n")
print(f"Saved {len(images)} image URLs to pinterest_images.csv")
# Rith an phríomhfheidhm async
query = 'halloween decor'
asyncio.run(main(query))
Is féidir le scríobadh Pinterest a theorannú ráta a theorannú nó fiú toirmisc má dhéanann tú an iomarca iarratais ón seoladh IP céanna. Cabhraíonn seachvótálaithe leis seo a mhaolú trí d'iarratais a ródú trí sheoltaí éagsúla IP, rud a chiallaíonn go bhfuil sé cosúil go bhfuil ilúsáideoirí ag brabhsáil Pinterest.
Cén fáth a n -úsáidtear seachvótálaithe:
Is féidir leat seachvótálaithe a bhunú go héasca le Playwright ag baint úsáide as an argóint seachfhreastalaí sa mhodh seolta. Sa sampla seo, cuir seoladh do sheachfhreastalaí, uimhir chalafoirt agus dintiúir seachfhreastalaí in ionad “http: // your-proxy-address: port”.
async def capture_images_from_pinterest(url):
async with async_playwright() as p:
# Cuir seachvótálaí leis anseo
browser = await p.chromium.launch(headless=True, proxy={"server": "http://your-proxy-address:port", "username": "username", "password": "password"})
page = await browser.new_page()
Dá bhrí sin, cuireann comhtháthú drámadóra le seachvótálaí le héifeachtacht uathoibrithe scríobtha. Ní hamháin go maolaíonn an teaglaim seo na rioscaí a bhaineann le meicníochtaí frith-bot ach cuireann sé le héifeachtúlacht fhoriomlán na bpróiseas bailithe sonraí.
Tá roinnt dúshlán ann a d'fhéadfadh a bheith ag úsáideoirí agus Playwright á n -úsáid acu chun sonraí Pinterest a scrape:
Is féidir úsáid a bhaint as an Playwright le seachvótálaithe agus i mód gan dídean na dúshláin seo a mhaolú go héifeachtach, an baol bloic a laghdú agus éifeachtúlacht eastósctha sonraí a fheabhsú.
Tuairimí: 0