Огляд агрегатора проксі Scrapoxy

Коментарі: 0

Scrapoxy являє собою інструмент для агрегації проксі-серверів. Сам по собі він не є скрапером або провайдером проксі, а лише допомагає керувати проксі-серверами і розподіляти запити через них, щоб зробити процес скрапінгу ефективнішим і безпечнішим. Scrapoxy використовується у зв'язці зі скраперами, які безпосередньо виконують завдання зі збору даних з веб-сайтів.

image19.png

Принцип веб-скрапінгу з використанням Scrapoxy має такий вигляд:

  1. Налаштування агрегатора із зазначенням параметрів проксі-серверів, які будуть використовуватися в процесі збору даних.
  2. Підключення Scrapoxy до скрапера через його конфігураційні файли або параметри підключення.
  3. Запуск скрапінгу, в процесі якого Scrapoxy буде автоматично розподіляти запити через свої проксі-сервери.

Зі Scrapoxy можна використовувати різні фреймворки та бібліотеки, наприклад:

  • BeautifulSoup - бібліотека для Python, що дає змогу витягувати дані з HTML і XML документів;
  • Scrapy - потужний і гнучкий фреймворк для веб-скрапінгу на Python;
  • Puppeteer - бібліотека для Node.js, що надає API для управління Chrome або Chromium і є популярним інструментом для для для веб-скрапінгу та автоматизації.

Розглянемо докладніше, як працює Scrapoxy і які особливості має інструмент.

Особливості Scrapoxy

Scrapoxy доповнює програми для скрапінгу, надаючи можливість більш ефективно і безпечно виконувати завдання зі збору даних. Проксі-агрегатор є потужним інструментом для керування проксі-серверами завдяки таким своїм особливостям.

Підтримка всіх типів проксі

Для використання в Scrapoxy підійдуть як динамічні, так і статичні IP-адреси, що забезпечується гнучкістю цього інструменту. Є можливість налаштувати такі види проксі:

  • датацентр IPv4/IPv6;
  • ISP проксі;
  • резидентські;
  • мобільні.

Це робить Scrapoxy універсальним варіантом для різних завдань веб-скрапінгу та управління трафіком. Крім того, підтримуються різні типи протоколів HTTP/HTTPS і SOCKS. Це дає змогу адаптувати Scrapoxy під конкретні вимоги вашого проєкту

Автоматична ротація проксі-серверів

Scrapoxy підтримує автоматичну ротацію проксі, що дає змогу зберігати високий рівень анонімності та уникати блокувань під час виконання завдань із веб-скрапінгу. Ротація означає регулярну зміну використовуваних проксі, що допомагає розподілити запити за різними IP-адресами, внаслідок чого уникнувши підозр і обмежень з боку цільових веб-сайтів.

Крім того, що ротація робить трафік складним для відстеження, а також знижує ймовірність блокувань, вона додатково допомагає розподілити навантаження по різних проксі-серверах. Реалізація ротації в автоматичному режимі в Scrapoxy робить цей процес непомітним для користувача, що особливо зручно за умови використання великого списку IP-адрес.

Моніторинг і управління трафіком

Scrapoxy вимірює й аналізує вхідний і вихідний трафік у той час, коли виконуються завдання з веб-скрапінгу, надаючи таким чином детальний огляд сесії користувача. Інструмент може відстежувати такі показники, як:

  • кількість запитів;
  • кількість активних проксі;
  • середній показник запитів на один проксі;
  • поточна швидкість отримання даних;
  • кількість даних, отриманих і відправлених проксі-серверами тощо.

Уся ця інформація зберігається в розділі з метриками і постійно оновлюється, що дає змогу аналізувати якість виконання проєктів під час використання тих чи інших проксі-серверів, а також систематизувати інформацію в зручному вигляді для її подальшого вивчення.

Менеджмент заблокованих проксі-серверів

Scrapoxy надає механізм для моніторингу та автоматичного виявлення заблокованих проксі-серверів, а також дає змогу керувати ними. Якщо проксі стає недоступним або не працює належним чином, Scrapoxy може позначити його як заблокований, щоб уникнути повторного використання цього проксі для скрапінгу і забезпечити безперебійний збір даних.

Щоб керувати заблокованими проксі-серверами, користувач може використовувати веб-інтерфейс або API Scrapoxy. У веб-інтерфейсі є можливість переглянути список проксі-серверів і їхній статус, а також позначити проксі-сервер як заблокований вручну. Крім цього, можна використовувати API Scrapoxy для автоматизації цього процесу.

Інтерфейс програми Scrapoxy

Для управління основними функціями Scrapoxy передбачено зручний візуальний веб-інтерфейс. Для отримання доступу до нього, необхідно встановити інструмент за допомогою Docker або Node.js.

image9.png

Projects

У цій вкладці зібрано список усіх створених проектів. Якщо таких ще немає, з цього розділу можна його створити, перейшовши у вкладку налаштувань. Тут міститься основна інформація про проєкти, а також можливість подивитися його детальніше і змінити налаштування.

image5.png

У проєкту може бути кілька статусів, які також видно в цій вкладці:

  • "OFF" - проєкт зупинено, проксі, які використовувалися для нього, - видаляються;
  • "CALM" - проєкт перебуває в стані "сну", водночас підтримується мінімальна кількість проксі, яка вказується в налаштуваннях проєкту;
  • "HOT" - проєкт активний, проксі запущено.

    image11.png

Credentials

Після налаштування проєкту створюється обліковий запис, який містить такі дані, як постачальник, назва і токен. Облікові записи являють собою інформацію, необхідну для автентифікації та авторизації при підключенні до хмарних провайдерів. Після їх введення програма перевіряє дані на валідність, після чого налаштування зберігаються, і облікові дані переносяться в цю вкладку. Тут відображається назва проєкту, хмарний провайдер і кнопка для перегляду більш детальних налаштувань облікового запису.

NEW1.png

Connectors

У цій вкладці зібрано список усіх конекторів. Це модулі, які дають змогу Scrapoxy взаємодіяти з різними хмарними провайдерами для створення та управління проксі-серверами.

При створенні конектора вказуються:

  • облікові дані з попереднього розділу;
  • унікальна назва конектора;
  • кількість проксі, яку буде використано;
  • таймаут проксі - час підключення, через який проксі вважатиметься неробочим.

Усі додані конектори відображаються в розділі "Connectors". Тут у центральному вікні зберігається така інформація про них:

  • статус;
  • назва і тип;
  • кількість проксі;
  • клавіші для керування кількістю проксі;
  • встановлення конектора за замовчуванням;
  • додаткові опції.

    NEW2.png

Передбачено три статуси конекторів: "ON", "OFF" і "ERROR". За необхідності, конектор можна буде відредагувати, оновивши дані та перевіривши їх на валідність.

Proxies

Ця вкладка є однією з найбільш багатофункціональних. У головному вікні відображається список проксі-серверів та їхніх основних даних: назва, IP-адреса, статус та інших. Крім того, з цієї сторінки можна керувати проксі-серверами: видаляти їх або відключати.

image18.png

У колонці статусів відображаються іконки, що визначають стан проксі:

  • запускається;
  • запущений;
  • зупиняється;
  • зупинено;
  • не працює.

Також поруч можна побачити іконку, що відображає стан самого підключення: онлайн, офлайн або помилка підключення.

Coverage

Під час додавання списку проксі-серверів до Scrapoxy та їхнього використання щонайменше один раз, програма автоматично аналізує їхні геолокації та створює карту покриття, яку можна подивитися в цьому розділі. Він надає візуальну схему, а також статистичне зведення, що включає таку інформацію:

  • назва міст і кількість проксі, які розташовані там;
  • країни та кількість проксі в кожній з них;
  • назви мереж, до яких належить проксі, та їхня кількість.

Перевірка походження і повноти покриття карти світу дуже важлива для оптимізації процесу веб-скрапінгу.

image1.png

Metrics

У цій вкладці представлено набір показників для моніторингу проєкту. Центральна панель розділена на кілька частин, які містять основну статистику за проектами. На верхній панелі користувач може вибрати, за який часовий проміжок Scrapoxy має показати аналітичні дані. Нижче зібрана така інформація, що стосується проксі-серверів, задіяних у проектах:

  • Received і Sent: кількість байтів, отриманих і відправлених усіма проксі відповідно;
  • Requests: кількість зроблених запитів;
  • Stops: кількість заявок на видалення;
  • Received і Sent: швидкість отримання та надсилання даних;
  • Valid і Invalid requests: кількість дійсних і недійсних запитів;
  • Proxies Created і Removed: кількість створених і видалених проксі.

    image14.png

Нижче наведено інформацію, корисну для аналізу проксі-серверів, які видалено з пулу:

  • середня кількість зроблених через проксі запитів;
  • середній час роботи проксі.

    image4.png

Далі можна подивитися графіки за кількістю відправлених і отриманих даних, відправлених запитів і отриманих стоп-ордерів за певний час.

image16.png

Tasks

У цій вкладці зібрані всі завдання, запущені з використанням Scrapoxy. Тут відображається така інформація по кожному завданню:

  • назва завдання;
  • дата та час його початку;
  • дата і час його завершення, якщо завдання вже закінчено;
  • прогрес завдання: скільки кроків уже виконано;
  • кнопка для більш детального перегляду завдання.

    image17.png

Під час відкриття завдання відкривається детальніша інформація, включно з описом завдання і часом повторної спроби його виконання. Крім цього, тут можна зупинити завдання.

image3.png

Users

Відкривши цю вкладку, можна переглянути список усіх користувачів, які мають доступ до проєктів. Тут можна подивитися ім'я користувача та його електронну пошту, а також видалити його зі списку або додати нового. При цьому важливо враховувати, що користувач не може видалити себе з проєкту. Додати можна тільки тих користувачів, хто авторизувався в Scrapoxy до цього.

image15.png

Settings

Вкладка відкривається при першому підключенні Scrapoxy і дає змогу виконати налаштування проєкту. У цьому вікні вказуються такі дані, як:

  • назва проєкту;
  • дані для аутентифікації проксі в запитах - логін і пароль;
  • налаштування проксі - ротація, мінімальна кількість проксі в мережі;
  • додаткові функції, наприклад, зміна User-Agent під час зміни проксі, перемикання статусів проєкту, перехоплення HTTPS-запитів, sticky cookie та інші.

Після внесення і збереження всіх налаштувань, для проєкту можна буде створити обліковий запис.

image20.png

Як додати проксі-сервер у Scrapoxy

Щоб налаштувати проксі-сервер у Scrapoxy, вам необхідно отримати доступ до API на сайті Proxy-Seller:

  1. Зайдіть в особистий кабінет і перейдіть у розділ "API".

    image7.png

  2. Скопіюйте API-токен і збережіть його для зручного використання надалі.

    image10.png

  3. Відкрийте веб-інтерфейс Scrapoxy і перейдіть у "Marketplace". Там знайдіть Proxy-Seller за допомогою ручного пошуку за назвою або типом.

    image2.png

  4. Далі виберіть вид проксі, який будете використовувати: статичний або динамічний, і натисніть "Create" для створення нового облікового запису.

    image12.png

  5. Введіть такі дані, як назва і токен, який ви зберегли раніше в особистому кабінеті. Натисніть на кнопку "Create".

    image13.png

  6. Далі створіть новий конектор, вибравши Proxy-Seller як провайдера. Конектор відображатиметься в головному списку, звідки його можна буде ввімкнути.

    image8.png

Налаштування завершено, тепер завдання з парсингу даних у ротаторі проксі Scrapoxy будуть виконуватися з використанням підключених проксі.

Насамкінець зазначимо, що Scrapoxy - корисний інструмент для проксі-серверів, їхнього масштабування та управління під час виконання завдань скрапінгу. Проксі-менеджер дасть змогу підвищити анонімність запитів і виконати ефективну автоматизацію збору даних. Він підходить для самостійного або командного використання, сумісний з великою кількістю проксі-провайдерів і є абсолютно безкоштовним.

Коментарії:

0 Коментаріїв