Gambaran umum alat pengikis web Octoparse

Komentar: 0

Octoparse adalah alat pengikisan web dan ekstraksi data otomatis yang dirancang untuk merayapi situs web dan mengumpulkan informasi dalam jumlah besar. Alat ini secara efisien mentransfer data ke dalam spreadsheet dan basis data untuk analisis lebih lanjut. Alat ini sangat berharga bagi para analis, direktur, pedagang, pemasar, dan siapa pun yang terlibat dalam perencanaan strategis, analisis kompetitif, dan penargetan dalam sektor e-commerce.

1.png

Fitur-fitur yang tidak biasa

Octoparse adalah alat pengikis web otomatis dan ekstraksi data yang canggih yang banyak digunakan di berbagai sektor untuk mengumpulkan data dan mengotomatiskan tugas-tugas rutin. Dibedakan oleh para pengembangnya karena kemampuannya untuk mengekstrak informasi secara efektif dari 98% situs web, Octoparse unggul dalam menangani sumber daya web yang interaktif, kompleks, dan dinamis. Alat ini meniru perilaku penelusuran manusia dan menawarkan serangkaian fitur yang kuat:

  • Browser bawaan: memungkinkan pengguna untuk masuk ke akun, melakukan pencarian, menavigasi halaman, dan beroperasi pada halaman yang bergulir tanpa henti;
  • Bypass CAPTCHA: fungsionalitas terintegrasi dalam Octoparse yang memungkinkan bypass CAPTCHA;
  • Ekstraksi data: mampu mengekstraksi teks, baik tautan HTML internal maupun eksternal, atribut, dan memilih nilai untuk pengumpulan data yang lebih dalam. Ini juga dapat mengambil URL file dan gambar;
  • Pemblokiran iklan: memblokir iklan untuk mengurangi penggunaan lalu lintas dan mempercepat proses penguraian;
  • Dukungan proxy: memungkinkan pengaturan dan rotasi server proxy untuk memastikan operasi yang berkelanjutan dan menghindari pemblokiran situs;
  • Pemindaian terjadwal: menawarkan opsi untuk menjadwalkan pemindaian situs web yang diperbarui secara real-time, sehingga memudahkan pengumpulan data secara tepat waktu.

    2.png

Kemampuan yang luar biasa

Octoparse menawarkan beberapa keunggulan teknis yang meningkatkan kemampuan pengikisan webnya, sehingga pengguna dapat mengatasi berbagai macam masalah secara efektif:

  • Dapat diluncurkan secara lokal di komputer atau digunakan di cloud di beberapa server, yang dapat mempercepat proses scraping web hingga 20 kali lipat.
  • Fitur "Smart Mode" memungkinkan konversi langsung halaman web ke dalam tabel data terstruktur hanya dengan memasukkan URL.
  • Terdapat templat Octoparse yang praktis dan tersedia untuk platform populer seperti Facebook, Instagram, YouTube, Twitter, dan Google.
  • Ini termasuk alat RegEx dan XPath untuk pencarian elemen web yang lebih tepat.
  • Data yang diproses dapat diekspor ke berbagai format termasuk CSV, Excel, JSON, HTML, dan TXT.
  • Aplikasi ini mampu menangani tugas-tugas seperti memproses otorisasi, mencari formulir, memperluas komentar dan daftar, mengumpulkan data dari kalender dan peta, dan bekerja dengan Ajax dan JavaScript.
  • Alur kerja dapat divisualisasikan melalui perancang untuk memahami dengan jelas logika (variabel, loop, dan ekspresi bersyarat), dengan opsi untuk memodifikasi diagram menggunakan antarmuka "Tunjuk-dan-klik".

    3.png

Program Octoparse dirancang agar mudah digunakan, tidak memerlukan keahlian teknis atau pemrograman, sehingga ideal bagi mereka yang baru mengenal proses penguraian. Situs web ini menawarkan tutorial yang jelas yang mendemonstrasikan cara menggunakan Octoparse, menampilkan fitur-fiturnya yang populer dan menyajikan skenario pengguna dalam kehidupan nyata untuk tugas-tugas umum. Selain itu, pertanyaan yang sering diajukan dan bagian tutorial di situs ini mempelajari metode yang kurang jelas untuk mempercepat pengumpulan data, menawarkan solusi untuk kesalahan umum, memberikan tips untuk melewati batasan kueri, dan menyertakan sumber daya bermanfaat lainnya.

Ekstraksi alamat email

Octoparse dapat digunakan untuk mengumpulkan alamat email dari sumber yang ditampilkan secara publik, memungkinkan pengiriman penawaran kepada klien potensial. Perangkat lunak ini mampu mengumpulkan hingga 100.000 alamat email hanya dalam beberapa jam. Selain itu, Octoparse dilengkapi dengan templat universal yang dirancang khusus untuk mengumpulkan informasi kontak dari berbagai platform online, termasuk halaman LinkedIn, jejaring sosial, direktori layanan, dan direktori perusahaan. Hal ini menjadikannya alat serbaguna bagi mereka yang ingin meningkatkan upaya pemasaran dan penjangkauan mereka.

Ekstraksi data web

Pengumpulan informasi massal sangat berharga untuk aplikasi seperti pemantauan harga, perolehan prospek, dan riset pasar. Untuk tugas-tugas yang melibatkan analisis sejumlah besar indikator yang berubah secara real-time, penggalian web dalam mode cloud adalah yang paling efektif. Pendekatan ini memungkinkan hingga 20 thread secara simultan untuk beroperasi pada jadwal otomatis. Data yang dikumpulkan dapat disimpan langsung ke file di PC atau ke database di mana data tersebut dapat diurutkan, diperbarui, dan disusun untuk memenuhi kebutuhan tertentu.

Ekstraksi gambar

Dengan Octoparse, Anda dapat secara efisien menghasilkan daftar alamat gambar untuk pengunggahan berikutnya. Fungsi scraper memungkinkan Anda untuk mengotomatiskan berbagai tugas, seperti mencari berdasarkan tag meta atau tanggal pembaruan, menyimpan tautan ke semua gambar di korsel, dan mengunduh URL untuk gambar ukuran penuh, bukan gambar mini. Selain itu, Octoparse memungkinkan Anda untuk mengambil informasi terkait dari situs web-seperti harga, lokasi, deskripsi, dan detail kontak produk, hotel, atau layanan-untuk analisis lebih lanjut. Anda dapat mengunggah file melalui pengunggah gambar pihak ketiga atau menggunakan opsi bawaan saat memproses secara lokal dari komputer Anda.

Ekstraksi nomor telepon

Anda dapat menggunakan Octoparse untuk mengumpulkan data dari berbagai sumber seperti Yelp, Google Maps, LinkedIn, situs layanan tukang, dan direktori perusahaan. Octoparse mampu mengakses data yang tersembunyi di balik elemen seperti tombol "Tampilkan nomor" dan menyalinnya. Setelah dikonfigurasi, program ini memungkinkan Anda untuk mengumpulkan tidak hanya nomor telepon, tetapi juga nama, komentar, dan deskripsi layanan. Semua informasi ini dapat diatur secara efisien dan ditransfer ke dalam tabel untuk memudahkan analisis.

Pengumpulan data yang beragam

Octoparse mahir dalam mengekstrak informasi dari situs web yang menggunakan teknologi anti-scraping, menjadikannya alat yang ampuh untuk mengatasi berbagai tantangan pengumpulan data. Berikut adalah beberapa masalah utama yang dapat dipecahkannya:

  • Mengekstrak informasi dari sumber daya dinamis yang menggunakan JavaScript dan AJAX;
  • Mengurai situs dengan pengguliran tanpa henti untuk menangkap data yang berkelanjutan;
  • Mengumpulkan berita dan artikel online dari berbagai sumber;
  • Mengekstrak struktur bersarang dan tersemat di dalam halaman web;
  • Mengambil data e-commerce seperti ulasan, daftar pemasok, peringkat, dan harga dari platform utama seperti Amazon, eBay, dan Aliexpress.

API yang diintegrasikan ke dalam Octoparse meningkatkan fungsionalitasnya dengan memungkinkan data diambil tanpa perlu menunggu respons dari server web. Hal ini memungkinkan transmisi informasi secara otomatis dari cloud ke lingkungan kerja Anda, seperti sistem CRM, dan memungkinkan penyesuaian skrip dan parameter tugas. Untuk kebutuhan dasar, versi gratis Octoparse mungkin sudah cukup. Namun, untuk implementasi komprehensif proyek berskala besar, paket berbayar menawarkan fitur dan kemampuan yang lebih kuat.

Paket harga Octoparse

Octoparse menawarkan tiga jenis langganan: gratis, standar, dan profesional. Semua paket langganan premium bisa dicoba secara gratis selama 14 hari hanya dengan mendaftar dan mengajukan permohonan. Untuk paket berbayar, ada opsi untuk meminta pengembalian dana dalam waktu 5 hari setelah pembelian. Selain itu, langganan tahunan di Octoparse lebih hemat dibandingkan dengan pembayaran bulanan.

4.png

Semua paket di Octoparse menggunakan perangkat lunak klien yang sama, dengan perbedaan utama adalah jangkauan fungsionalitas yang tersedia di setiap tingkat langganan.

Gratis

Ideal untuk proyek-proyek kecil, paket gratis Octoparse memungkinkan pemrosesan halaman tak terbatas. Anda bisa mengatur hingga 10 tugas dan menjalankan dua tugas secara bersamaan. Namun, versi gratisnya terbatas pada peluncuran PC lokal saja; penguraian awan tidak didukung.

Paket standar

Solusi optimal untuk usaha kecil dan karyawan perorangan menyediakan akses ke hampir semua fungsi populer. Keuntungan utamanya adalah lebih dari seratus templat siap pakai untuk berbagai platform, hingga 100 tugas simultan, akses ke proses cloud, dan juga:

  • Kemampuan untuk mengintegrasikan proxy ke dalam Octoparse untuk mengubah IP dan mengonfigurasi rotasi, yang memungkinkan Anda untuk meningkatkan jumlah permintaan tanpa mempertaruhkan potensi pemblokiran;
  • Mengunggah gambar dan berkas dalam format jpg, png, gif, doc, pdf, ppt, txt, xls, dan zip;
  • Ekspor otomatis data dan akses melalui API.

Rencana profesional

Dirancang untuk operasi berskala besar, paket ini memungkinkan hingga 250 tugas dan penggunaan 20 proses cloud secara bersamaan. Paket ini mencakup fitur penyalinan otomatis awan. Pelanggan menerima pelatihan yang dipersonalisasi dan dukungan teknis prioritas.

Tarif Free Standard Professional
Biaya Gratis

$89/bulan, $900/tahun

(Hemat 16%)

$249/bulan, $2496/tahun

(Hemat 16%)

Jumlah tugas 10 100 250
Tugas lokal paralel pada PC 2 Tidak terbatas Tidak terbatas
Tugas paralel di awan 0 6 20
Rotasi proxy IP Ya. Ya. Ya.
Dukungan server proxy Ya. Ya. Ya.
Pengikisan terjadwal Tidak. Ya. Ya.
Integrasi API dengan CRM Tidak. Ya. Ya.
Lewati captcha Tidak. Ya. Ya.
Pengumpulan data dari gambar Ya. Ya. Ya.

Klien korporat besar dapat meminta rencana tarif yang dipesan lebih dahulu, yang disesuaikan dengan persyaratan dan kebutuhan khusus mereka.

Antarmuka Octoparse

Setelah Anda meluncurkan program ini, program ini segera meminta Anda untuk mendaftar menggunakan akun Google, Microsoft, atau email Anda untuk login otomatis ke profil Anda. Sebuah jendela kemudian muncul, memberi Anda gambaran umum singkat tentang apa yang dapat dilakukan program ini. Setelah itu, Anda akan diajak untuk mengikuti tutorial singkat, langkah demi langkah untuk membantu Anda memahami program ini.

5.png

6.png

Profil pengguna

Tab "Akun Saya" menawarkan gambaran umum ringkas tentang beberapa detail utama:

  • Data pengguna, termasuk avatar, alamat email, nama lengkap, nama pengguna, dan kata sandi Anda;
  • Jenis dan tanggal kedaluwarsa langganan Anda;
  • Akun apa pun yang telah Anda tautkan;
  • Anda dapat melihat dana yang saat ini tersedia di saldo Anda dan mengelola tindakan tim.

    7.png

Membuat tugas baru

Semua pekerjaan dengan Octoparse dimulai dengan pembuatan tugas, yang terdiri dari instruksi untuk dijalankan oleh program. Pada bilah sisi, mengklik ikon "New" akan memberikan dua pilihan:

  • Custom Task memungkinkan kustomisasi lanjutan dari sebuah tugas.
  • Task Template menawarkan template siap pakai untuk sebagian besar layanan, dapat diakses dengan langganan berbayar.

    8.png

Memilih "Tugas Khusus" memungkinkan Anda menentukan sumber URL. Pilihannya meliputi memasukkannya secara manual, mengimpornya dari file, atau menggunakan tugas yang sudah ada. Fungsi "Batch generate" memfasilitasi pembuatan banyak tautan melalui templat berdasarkan URL tertentu. Selain itu, tugas dapat ditugaskan ke grup yang ditentukan.

9.png

Dashboard - panel informasi

Panel informasi menampilkan tugas-tugas yang ada bersama dengan berbagai pilihan manajemen:

  • Tugas dapat dijalankan di awan atau di komputer Anda;
  • Pengaturan autorun dapat dikonfigurasi;
  • Dimungkinkan untuk memeriksa tugas mana yang saat ini berjalan di cloud dan mana yang telah selesai;
  • Filter dapat diterapkan;
  • Tugas dapat dicari berdasarkan nama;
  • Berbagai tindakan dapat dilakukan dengan tugas, seperti menggandakan, melihat data, mengekspor, menghapus, dan banyak lagi.

    10.png

Templat

Tab "Templates" di Octoparse menampilkan kumpulan templat pengikisan web-tugas yang sudah diformat sebelumnya yang siap digunakan tanpa perlu membuat aturan pengikisan atau menulis kode apa pun.

Templat-templat tersebut disusun ke dalam beberapa kategori:

  • Informasi kontak dan klien potensial, yang mencakup templat untuk mengekstrak email, nomor telepon, dan tautan profil media sosial;
  • E-commerce, yang mencakup templat untuk mengumpulkan data tentang produk, harga, dan opsi pengiriman;
  • Perjalanan, dengan templat untuk rincian seperti nama hotel, alamat, peringkat bintang, fasilitas, ketersediaan sarapan, jumlah ulasan, peringkat rata-rata, dan ketersediaan kamar;
  • Media sosial menampilkan templat yang dapat menarik nama pengguna, konten posting, jumlah suka, lokasi, URL gambar atau video, dan deskripsi video.

Template tambahan yang telah dibuat sebelumnya tersedia untuk berbagai sumber daya lainnya.

11.png

Secara tradisional, web scraping membutuhkan pengetahuan tentang Python untuk membuat templat tugas, tetapi Octoparse menyederhanakannya dengan templat siap pakai. Cukup pilih templat dan tentukan URL untuk memulai.

12.png

Alat-alat

Bilah alat mencakup beberapa fitur yang berguna:

  • Tool RegEx memungkinkan pembuatan ekspresi reguler secara otomatis dengan menetapkan berbagai kriteria. Hal ini sangat berguna untuk mencocokkan atau mengganti karakter dalam nilai field untuk menyaring data yang diekstrak.
  • Alat ekspor otomatis basis data memungkinkan pengiriman hasil secara otomatis ke Excel atau basis data seperti MySQL, SQLSERVER, Oracle, dan lainnya.

    13.png

Cara membuat tugas baru di Octoparse

Mari kita lihat prosesnya dengan sebuah contoh praktis:

Langkah 1. Membuat tugas penguraian baru

Untuk memulai, klik ikon "Baru" dan pilih "Tugas Khusus". Kemudian, salin URL situs web dan tempelkan ke dalam baris "Masukan URL". Klik "Simpan" untuk menyimpan tugas. Atau, Anda dapat langsung memasukkan URL ke dalam kolom pencarian di halaman utama dan klik "Mulai" untuk memulai.

14.png

15.png

Langkah 2. Pendeteksian bidang data otomatis

Setelah Anda memasukkan URL, Octoparse akan memuat halaman di peramban bawaannya. Untuk melanjutkan, klik "Deteksi data halaman web secara otomatis" pada panel Tips. Program ini kemudian akan memindai halaman dan secara otomatis menyarankan bidang yang sesuai untuk ekstraksi data.

16.png

17.png

Langkah 3. Mengkonfigurasi bidang data

Tinjau bidang data yang disarankan dan pastikan bahwa elemen yang diperlukan pada halaman disorot. Anda dapat mengganti nama atau menghapus bidang menggunakan panel "Pratinjau Data" di bagian bawah.

18.png

Langkah 4. Membangun alur kerja penguraian

Klik "Buat Alur Kerja" untuk mendefinisikan setiap langkah proses. Dengan mengklik setiap tindakan, Anda dapat memverifikasi bahwa pengurai bekerja dengan benar.

19.png

Langkah 5. Meluncurkan dan menjadwalkan pengurai

Klik "Jalankan" di bagian kanan atas:

20.png

Pilih server tempat permintaan akan diproses:

  • "Jalankan di perangkat Anda" adalah opsi yang tersedia dalam versi gratis. Opsi ini menggunakan daya komputer dan koneksi internet Anda.
  • "Jalankan di Cloud" adalah opsi yang lebih cepat, ideal untuk penggosokan yang konstan. Opsi ini memungkinkan Anda menjadwalkan autorun untuk situs web dinamis dengan konten yang sering diperbarui agar data Anda tetap mutakhir.

Anda juga dapat mengonfigurasi jadwal peluncuran otomatis di sini:

21.png

Langkah 6. Mengekspor data yang terkumpul

Setelah pengurai selesai, Anda dapat mengekspor hasilnya ke Excel, CSV, HTML, XML, JSON, basis data, atau Google Spreadsheet untuk analisis lebih lanjut.

22.png

Penyiapan proxy langkah demi langkah di pengurai Octoparse

Untuk melewati perlindungan penguraian di sebagian besar situs web dan mengurangi risiko diblokir karena banyak permintaan simultan dari satu IP, disarankan untuk menggunakan fungsionalitas rotasi proksi otomatis bawaan. Untuk konfigurasi, Anda bisa menggunakan proksi Anda sendiri atau proksi yang disediakan oleh program. Mari kita telusuri proses penyiapan dengan menggunakan contoh spesifik dari tugas yang sudah dibuat:

  1. Buka tugas dan klik "Pengaturan Tugas".

    23.png

  2. Di bawah bagian "Anti-Blocking", aktifkan akses proxy dan pilih "Gunakan proxy saya sendiri". Kemudian, klik tombol "Konfigurasi".

    24.png

  3. Setel waktu rotasi untuk proxy dan masukkan alamat proxy dalam format alamat IP:port:nama pengguna:kata sandi.

    25.png

  4. Klik "Konfirmasi" untuk menerapkan pengaturan ini dan tentukan parameter tambahan jika perlu.

    26.png

  5. Klik "Simpan" dan kemudian jalankan tugas. Dengan penyiapan ini, IP akan dirotasi dan cookie akan dihapus secara otomatis, menyelesaikan penyiapan proksi di Octoparse.

Kesimpulan

Dalam ulasan Octoparse ini, kami telah menjelajahi fitur-fitur, kemampuan, fungsi, dan pengaturan utamanya. Octoparse merupakan alat yang sangat mudah namun kuat untuk mengikis data web dari situs web statis dan yang diperbarui secara dinamis. Untuk performa optimal dan pengumpulan data berkelanjutan tanpa risiko diblokir, disarankan untuk menggunakan server proxy. Anda bisa menyiapkan proxy IPv4 atau proxy pusat data ISP secara individual; namun, Anda perlu memanfaatkan kumpulan alamat dan mengonfigurasi rotasinya. Sebagai alternatif, menggunakan proxy seluler dan residensial dengan peringkat kepercayaan tinggi direkomendasikan untuk keandalan yang lebih baik.

Komentar:

0 komentar