Огляд інструменту для веб-скрапінгу Octoparse

Коментарі: 0

Octoparse - інструмент для автоматичного парсингу веб-сторінок і вилучення даних. Він використовується для веб-скрапінгу, сканування сайтів для збору великої кількості інформації, передавання її в різні електронні таблиці та бази даних для подальшого опрацювання. Octoparse корисний для аналітиків, директорів, трейдерів, маркетологів і користувачів, які займаються стратегічним плануванням, конкурентним аналізом і таргетингом у сфері e-commerce.

1.png

Особливості Octoparse

Застосунків для збору даних і автоматизації рутинних завдань досить багато, і у всіх є свої переваги, недоліки та особливості. Головна відмінність Octoparse для веб-скрапінгу, за заявою розробників, здатність ефективно витягувати інформацію з 98% ресурсів, зокрема інтерактивних, складних і динамічних. Парсер повністю імітує поведінку людини під час перегляду сторінок і має такі особливості:

  • Вбудований браузер, що дає змогу входити в акаунти, вводити запити і виконувати пошук, переходити на сторінки, і працювати на сторінках, що нескінченно прокручуються;
  • Виконує обхід CAPTCHA через вбудований функціонал Octoparse;
  • Має функціонал для вилучення тексту, внутрішніх і зовнішніх HTML-посилань, атрибутів, і вибору значень для подальшого збору даних;
  • Виконує витяг URL-адреси файлів і зображень;
  • Блокує рекламу, в результаті чого скорочується використання трафіку і процес парсингу прискорюється;
  • Підтримує налаштування проксі-серверів та їхньої ротації для безперебійної роботи й обходу блокувань;
  • Надає можливість запланованого сканування необхідних сайтів, що оновлюються в реальному часі.

    2.png

Можливості парсера Octoparse

Розглянемо технічні переваги Octoparse і які завдання можна розв'язати з його допомогою.

  • Локальний запуск на комп'ютері та хмарне розгортання з кількома серверами одночасно, що прискорює процес веб-скрапінгу до 20 разів.
  • Інтелектуальний режим роботи "Smart Mode" допомагає конвертувати веб-сторінки в структуровану таблицю даних відразу після введення URL.
  • Зручні шаблони Octoparse для Facebook, Instagram, Youtube, Twitter, Google, та інших ресурсів.
  • Інструментарій RegEx і XPath для більш точного пошуку веб-елементів.
  • Експорт оброблених даних у CSV, Excel, JSON, HTML, TXT.
  • Додаток може обробляти авторизацію, форми пошуку, розгортати коментарі та списки, збирати дані з календарів і карт, працювати з Ajax і Javascript.
  • Візуалізація робочого процесу через конструктор для розуміння логіки (змінні, цикли, і умовні вирази), з можливістю зміни схеми за допомогою інтерфейсу "Point-and-click".

    3.png

Програма не вимагає технічних навичок або умінь програмування, підходить для ознайомлення з процесом парсингу. На сайті є зрозумілі уроки, як використовувати Octoparse, показано роботу популярних функцій, і представлено реальні користувацькі сценарії для поширених завдань. У розділі поширених запитань і туторіалів з Octoparse розглянуті неочевидні способи прискорити збір даних, надано розв'язання багатьох помилок, які виникають, подано корисні поради як обійти обмеження запитів та інші матеріали.

Витяг адреси електронної пошти

Можна використовувати Octoparse для збору даних e-mail адрес і подальшої розсилки пропозицій потенційним клієнтам. ПЗ для збору електронної пошти може зібрати до 100 тисяч поштових адрес, що публічно відображаються, за кілька годин. У Octoparse є універсальний шаблон для збирання контактних даних зі сторінок LinkedIn, соціальних мереж, довідників послуг, каталогів компаній.

Витяг веб-даних

Практика масового збору інформації особливо корисна для моніторингу цін, генерації лідів, маркетингового дослідження. Для аналізу великого обсягу показників, що змінюються в реальному режимі, і масштабування завдань найкраще підходить веб-скрапінг у хмарному режимі - до 20 одночасних потоків, що працюють за автоматичним розкладом. Дані можна зберегти у файл на ПК або в базу даних, сортувати, оновлювати та структурувати.

Витяг зображень

З Octoparse можна швидко формувати списки адрес зображень для подальшого вивантаження. Функції та можливості скрапера дають змогу автоматизувати роботу: шукати за мета-тегами або датою оновлення, зберегти посилання на всі фотографії з каруселі, завантажити URL-адреси повнорозмірних картинок замість мініатюр. Паралельно можна зберігати супутню інформацію з сайтів товарів, готелів, послуг - ціни, локацію, опис, контакти та інше для подальшого аналізу. Завантажити файли можна через сторонній завантажувач зображень або через вбудований, під час локальної обробки з комп'ютера.

Витяг номерів телефону

Можна збирати дані з Yelp, Google Maps, LinkedIn, сайтів послуг майстрів, у каталогах і довідниках компаній. Octoparse вміє відкривати приховані за кнопкою "Показати номер" дані та копіювати їх. Налаштувавши програму, можна збирати не тільки телефонні номери, а й імена, коментарі, описи послуг до них, і все це переносити в таблицю.

Різнорідний збір даних

Octoparse збирає інформацію з сайтів, що використовують технології захисту від парсингу. Його функції дають змогу вирішувати такі завдання, як:

  • Витяг інформації з динамічних ресурсів, що використовують JavaScript і AJAX;
  • Парсинг сайтів з нескінченною прокруткою;
  • Агрегація онлайн-новин і статей із різних джерел;
  • Витяг вкладених і вбудованих структур;
  • Отримання даних електронної комерції, включно з даними відгуків, списками постачальників, рейтингами, цінами з Amazon, eBay, Aliexpress та інших майданчиків.

Інтегрований в Octoparse API дає змогу витягувати інформацію, не чекаючи відповіді веб-сервера, автоматично надсилати інформацію з хмари у власне робоче середовище - CRM, а також налаштувати будь-які скрипти та параметри завдань. Для простих завдань буде достатньо безкоштовної версії, а для повної реалізації великих проектів варто звернути увагу на платний пакет.

Тарифи Octoparse

Існує три види підписки: безкоштовна, стандартна і професійна. Обидва платних варіанти можна спробувати протягом 14 днів безкоштовно, зареєструвавшись і подавши заявку. У платних пакетах є можливість повернути гроші протягом 5 днів. На річні підписки Octoparse ціни вигідніші, ніж помісячна оплата.

4.png

Для всіх планів використовується одне й те саме клієнтське ПЗ, різниця тільки в доступному функціоналі.

Free

Для невеликих проєктів є можливість використовувати Octoparse безкоштовно, причому немає обмежень на кількість оброблюваних сторінок. Дозволено налаштувати до 10 завдань, а одночасно запускати тільки два. Можна використовувати безкоштовну версію тільки у форматі запуску з локального ПК, хмарний парсинг - недоступний.

Standard plan

Оптимальне рішення для малого бізнесу та окремих співробітників, що надає доступ до майже всіх затребуваних функцій. Головні переваги - більше сотні готових шаблонів для різних платформ, до 100 одночасних завдань, доступ до хмарних процесів, а також:

  • Можливість інтеграції проксі в Octoparse для зміни IP і налаштування ротації, що дає змогу збільшити кількість запитів, не ризикуючи потенційним блокуванням;
  • Вивантаження зображень і файлів у форматах jpg, png, gif, doc, pdf, ppt, txt, xls і zip;
  • Автоекспорт даних і доступ через API.

Professional plan

Пакет для масштабних завдань: збільшено кількість завдань до 250 і можна використовувати 20 хмарних процесів одночасно. Є функція хмарного автокопіювання. Клієнтам пропонується індивідуальне навчання та пріоритетна техпідтримка.

Тариф Free Standard Professional
Вартість Безкоштовно $89/місяць $900 на рік (економія 16%) $249/місяць $2496 на рік (економія 16%)
Кількість завдань 10 100 250
Паралельні локальні завдання на ПК 2 Безліміт Безліміт
Паралельні завдання в хмарі 0 6 20
Ротація IP-проксі Так Так Так
Підтримка проксі-серверів Так Так Так
Запланований парсинг Нет Так Так
API-інтеграція з CRM Нет Так Так
Обхід капчі Нет Так Так
Збір даних зображень Так Так Так

Великі корпоративні клієнти можуть запросити індивідуальний тарифний план, що розраховується за запитом і потребами.

Інтерфейс Octoparse

Після запуску програма пропонує зареєструватися на сайті через акаунти Google, Microsoft, або e-mail адресу, і автоматично входить у профіль. Спливає вікно з коротким представленням можливостей, і потім користувачеві пропонують пройти коротке навчання в покроковому демо.

5.png

6.png

Профіль користувача

У вкладці акаунта зібрана коротка інформація:

  • Дані користувача: аватар, e-mail адреса, повне ім'я, логін, пароль;
  • Тип підписки та термін її закінчення;
  • В'язані акаунти;
  • Кошти на балансі та можливість керувати діями команди.

    7.png

Створення нового завдання

Уся робота з Octoparse починається зі створення завдання - набору інструкцій, яких має дотримуватися програма. На бічній панелі потрібно натиснути іконку "New" і вибрати:

  • Custom Task - розширений режим для користувацького налаштування завдання;
  • Task Template - готові шаблони для більшості сервісів, доступні тільки в платній підписці.

    8.png

Вибравши "Custom Task", можна вибрати джерело URL - ввести вручну, імпортувати з файлу або з іншого завдання. Є функція "Batch generate", за допомогою якої легко генерувати велику кількість посилань за шаблонами, на основі заданої URL-адреси. Завдання також можна віднести до необхідної групи.

9.png

Dashboard - інформаційна панель

На інформаційній панелі видно вже створені завдання і методи управління:

  • Запустити в хмарі або на комп'ютері;
  • Налаштувати автозапуск;
  • Переглянути, які виконуються в хмарі, і які завершені;
  • Використовувати фільтри;
  • Здійснювати пошук за завданнями;
  • Виконувати різні дії із завданнями: дублювати, подивитися дані, експортувати, видалити тощо.

    10.png

Шаблони

На вкладці "Templates" представлено шаблони веб-скрапінгу - набір попередньо відформатованих завдань, готових до запуску без необхідності налаштування будь-яких правил парсингу або написання коду.

Усі шаблони розділені за вкладками:

  • Контактна інформація та потенційні клієнти - парсинг електронної пошти, телефонів, посилань профілів у соцмережах;
  • Електронна комерція - дані про товари, ціни та доставку;
  • Подорожі - назва готелю, адреса, зірки, зручності, інформація про сніданок, кількість відгуків, середній бал, кількість номерів;
  • Соціальні медіа - імена користувачів, вміст публікації, кількість лайків, місце розташування, URL-адреса зображення або відео, опис відео.

Також присутні різні заздалегідь заготовлені шаблони для інших ресурсів.

11.png

При використанні традиційної техніки парсингу веб-сторінок необхідно вивчити Python, щоб створити один шаблон завдання, а Octoparse пропонує вже готову збірку. Досить вибрати темплейт і вказати конкретну адресу.

12.png

Інструменти

На панелі інструментів представлені:

  • RegEx - для автоматичного створення регулярних виразів шляхом налаштування різних критеріїв. Корисний для зіставлення або заміни символів у значеннях полів, щоб уточнити витягнуті дані.
  • Database auto-export tool - для автоматичного надсилання результатів в Excel або бази даних MySQL, SQLSERVER, Oracle чи інші.

    13.png

Як створити нове завдання в Octoparse

Розглянемо процес на практичному прикладі:

Крок 1. Створення нового завдання парсингу

Для початку роботи потрібно натиснути на іконку "New" і вибрати "Custom Task". Скопіюйте URL-адресу сайту і вставте її в рядок "URL Input". Натисніть "Save", щоб зберегти завдання. Як варіант, можна відразу ввести посилання в рядок пошуку на головній сторінці та натиснути "Start".

14.png

15.png

Крок 2. Автоматичне визначення полів даних

Octoparse завантажує сторінку у свій вбудований браузер. Натисніть "Auto-detect webpage data" на панелі "Tips". Програма просканує сторінку і запропонує відповідні поля.

16.png

17.png

Крок 3. Налаштування полів даних

Перегляньте пропоновані поля даних і переконайтеся, що виділено необхідні елементи на сторінці. Перейменувати або видалити поля можна за допомогою панелі "Data Preview" внизу.

18.png

Крок 4. Побудова робочого процесу парсингу

Натисніть "Create Workflow", щоб визначити кожен крок процесу. Натискаючи на кожну дію, можна переконатися, що парсер працює правильно.

19.png

Крок 5. Запуск і планування парсера

Натискаємо "Run" праворуч угорі:

20.png

Вибираємо сервер, на якому буде оброблятися запит:

  • "Run on your device": опція, доступна для безкоштовної версії. Використовується інтернет-канал провайдера та потужності власного комп'ютера.
  • "Run in the Cloud": швидший варіант, що підходить для постійного парсингу. Можна запланувати автозапуск для динамічних веб-сайтів з часто оновлюваним контентом і зберігати актуальні дані.

Тут же можна налаштувати автоматичний розклад запуску:

21.png

Крок 6. Експорт отриманих даних

Після завершення роботи парсера можна експортувати результати у формат Excel, CSV, HTML, Xml, JSON, у бази даних або Google Таблиці для подальшого аналізу.

22.png

Покрокове налаштування проксі в парсері Octoparse

Щоб обійти захист від парсингу на більшості ресурсів і знизити ризик блокування, викликаний безліччю одночасних запитів з одного IP, рекомендується скористатися вбудованим функціоналом автоматичної ротації проксі. Щоб здійснити налаштування, дозволено використовувати власні або надані програмою проксі. Розглянемо на конкретному прикладі вже створеного завдання:

  1. Відкрийте завдання і натисніть на "Task Settings".

    23.png

  2. Виберіть пункт "Anti-Blocking", увімкніть доступ через проксі та вкажіть "Use my own proxies". Натисніть кнопку "Configure":

    24.png

  3. Встановіть час ротації та введіть адреси у форматі IP:port:username:password.

    25.png

  4. Натисніть "Confirm" і вкажіть додаткові параметри за необхідності:

    26.png

  5. Натисніть "Save" і запустіть завдання. Тепер IP чергуватимуться, a cookies очищатимуться автоматично. Налаштування проксі в Octoparse завершено.

Підбиваємо підсумки

У цьому огляді Octoparse ми розглянули його основні особливості, можливості, функції та налаштування. Це простий, і водночас потужний інструмент для парсингу веб-даних зі звичайних і динамічно оновлюваних сайтів. Для безперешкодної роботи та активного збору даних без блокування його варто використовувати з проксі-серверами. Можна налаштувати індивідуальні датацентр проксі IPv4 або ISP, але в такому разі знадобиться використовувати пул адрес і налаштовувати їхню ротацію. Як альтернативу, рекомендуємо вибрати мобільні та резидентські проксі з високим траст-показником.

Коментарії:

0 Коментаріїв