Web kazıma aracı Octoparse'a genel bakış

Yorumlar: 0

Octoparse, web sitelerini taramak ve büyük hacimli bilgileri toplamak için tasarlanmış otomatik bir web kazıma ve veri çıkarma aracıdır. Daha fazla analiz için verileri elektronik tablolara ve veritabanlarına verimli bir şekilde aktarır. Bu araç özellikle analistler, yöneticiler, tüccarlar, pazarlamacılar ve e-ticaret sektöründe stratejik planlama, rekabet analizi ve hedefleme ile ilgilenen herkes için değerlidir.

1.png

Octoparse özellikleri

Octoparse, veri toplamak ve rutin görevleri otomatikleştirmek için çeşitli sektörlerde yaygın olarak kullanılan sofistike bir otomatik web kazıma ve veri çıkarma aracıdır. Geliştiricileri tarafından web sitelerinin %98'inden etkili bir şekilde bilgi çıkarma kabiliyetiyle öne çıkan Octoparse, etkileşimli, karmaşık ve dinamik web kaynaklarını ele almada mükemmeldir. Araç, insan tarama davranışını taklit eder ve sağlam bir özellik paketi sunar:

  • Dahili tarayıcı: kullanıcıların hesaplara giriş yapmasına, arama yapmasına, sayfalar arasında gezinmesine ve sonsuz kaydırmalı sayfalarda işlem yapmasına olanak tanır;
  • CAPTCHA bypass: Octoparse içinde CAPTCHA'ların atlanmasını sağlayan entegre işlevsellik;
  • Veri çıkarma: metni, hem dahili hem de harici HTML bağlantılarını, öznitelikleri çıkarabilir ve daha derin veri toplama için değerleri seçebilir. Ayrıca dosya ve görüntülerin URL'lerini de alabilir;
  • Reklam engelleme: trafik kullanımını azaltmak ve ayrıştırma sürecini hızlandırmak için reklamları engeller;
  • Proxy desteği: sürekli çalışmayı sağlamak ve site engellerini aşmak için proxy sunucularının kurulmasını ve döndürülmesini sağlar;
  • Programlı taramalar: Bu, gerçek zamanlı olarak güncellenen web sitesi taramalarını planlama seçeneği sunarak zamanında veri toplamayı kolaylaştırır.

    2.png

Octoparse yetenekleri

Octoparse, web kazıma yeteneklerini geliştiren ve kullanıcıların çok çeşitli sorunları etkili bir şekilde ele almasına olanak tanıyan çeşitli teknik avantajlar sunar:

  • Bir bilgisayarda yerel olarak başlatılabilir veya bulutta birden fazla sunucuya dağıtılabilir, bu da web kazıma işlemini 20 kata kadar hızlandırabilir.
  • "Akıllı Mod" özelliği, web sayfalarının sadece URL girilerek anında yapılandırılmış veri tablolarına dönüştürülmesini sağlar.
  • Facebook, Instagram, YouTube, Twitter ve Google gibi popüler platformlar için kullanışlı Octoparse şablonları mevcuttur.
  • Web öğelerinin daha hassas bir şekilde aranması için RegEx ve XPath araçlarını içerir.
  • İşlenen veriler CSV, Excel, JSON, HTML ve TXT gibi çeşitli formatlara aktarılabilir.
  • Uygulama, yetkilendirmeyi işleme, formlarda arama yapma, yorumları ve listeleri genişletme, takvimlerden ve haritalardan veri toplama ve Ajax ve JavaScript ile çalışma gibi görevleri yerine getirebilir.
  • İş akışı, mantığı (değişkenler, döngüler ve koşullu ifadeler) net bir şekilde anlamak için tasarımcı aracılığıyla görselleştirilebilir ve "İşaretle ve tıkla" arayüzü kullanılarak diyagramı değiştirme seçenekleri sunulur.

    3.png

Octoparse programı kullanıcı dostu olacak şekilde tasarlanmıştır, teknik veya programlama becerisi gerektirmez, bu da onu ayrıştırma sürecine yeni başlayanlar için ideal hale getirir. Web sitesi, Octoparse'ın nasıl kullanılacağını gösteren, popüler özelliklerini sergileyen ve yaygın görevler için gerçek hayattan kullanıcı senaryoları sunan açık öğreticiler sunar. Ayrıca, sitenin sıkça sorulan sorular ve öğretici bölümü, veri toplamayı hızlandırmak için daha az belirgin yöntemleri araştırıyor, yaygın hatalara çözümler sunuyor, sorgu kısıtlamalarını atlamak için ipuçları sağlıyor ve diğer yararlı kaynakları içeriyor.

E-posta adresi çıkarma

Octoparse, halka açık kaynaklardan e-posta adresleri toplamak için kullanılabilir ve potansiyel müşterilere teklif gönderilmesini sağlar. Yazılım sadece birkaç saat içinde 100.000'e kadar e-posta adresi toplama kapasitesine sahiptir. Ayrıca Octoparse, LinkedIn sayfaları, sosyal ağlar, hizmet dizinleri ve şirket dizinleri dahil olmak üzere çeşitli çevrimiçi platformlardan iletişim bilgilerini toplamak için özel olarak tasarlanmış evrensel bir şablona sahiptir. Bu da Octoparse'ı pazarlama ve sosyal yardım çabalarını geliştirmek isteyenler için çok yönlü bir araç haline getiriyor.

Web veri çıkarma

Toplu bilgi toplama özellikle fiyat izleme, müşteri adayı oluşturma ve pazar araştırması gibi uygulamalar için değerlidir. Gerçek zamanlı olarak değişen büyük hacimli göstergelerin analizini içeren görevler için bulut modunda web kazıma en etkili yöntemdir. Bu yaklaşım, 20 adede kadar eşzamanlı iş parçacığının otomatik bir programda çalışmasına olanak tanır. Toplanan veriler doğrudan bilgisayardaki bir dosyaya veya özel ihtiyaçları karşılamak üzere sıralanabileceği, güncellenebileceği ve yapılandırılabileceği bir veritabanına kaydedilebilir.

Görüntü çıkarma

Octoparse ile, daha sonra yüklemek için görüntü adreslerinin listelerini verimli bir şekilde oluşturabilirsiniz. Kazıyıcının işlevleri, meta etiketlere veya güncelleme tarihlerine göre arama yapma, bir karuseldeki tüm görüntülerin bağlantılarını kaydetme ve küçük resimler yerine tam boyutlu görüntüler için URL'leri indirme gibi çeşitli görevleri otomatikleştirmenizi sağlar. Ayrıca Octoparse, daha fazla analiz için web sitelerinden fiyatlar, konumlar, açıklamalar ve ürünlerin, otellerin veya hizmetlerin iletişim bilgileri gibi ilgili bilgileri yakalamanıza olanak tanır. Dosyaları üçüncü taraf bir görüntü yükleyici aracılığıyla ya da bilgisayarınızdan yerel olarak işlerken yerleşik bir seçeneği kullanarak yükleyebilirsiniz.

Telefon numarası çıkarma

Octoparse'ı Yelp, Google Maps, LinkedIn, tamirci hizmeti siteleri ve şirket dizinleri gibi çeşitli kaynaklardan veri toplamak için kullanabilirsiniz. Octoparse, "Numarayı göster" düğmesi gibi öğelerin arkasına gizlenmiş verilere erişebilir ve bunları kopyalayabilir. Yapılandırıldıktan sonra program sadece telefon numaralarını değil, isimleri, yorumları ve hizmet açıklamalarını da toplamanızı sağlar. Tüm bu bilgiler verimli bir şekilde organize edilebilir ve kolay analiz için bir tabloya aktarılabilir.

Çeşitli veri toplama

Octoparse, kazıma karşıtı teknolojiler kullanan web sitelerinden bilgi çıkarma konusunda ustadır ve bu da onu çeşitli veri toplama zorluklarını ele almak için güçlü bir araç haline getirir. İşte çözebileceği temel sorunlardan bazıları:

  • JavaScript ve AJAX kullanan dinamik kaynaklardan bilgi çıkarma;
  • Sürekli veri yakalamak için siteleri sonsuz kaydırma ile ayrıştırma;
  • Çeşitli kaynaklardan çevrimiçi haber ve makaleleri bir araya getirme;
  • Web sayfalarındaki iç içe geçmiş ve gömülü yapıların çıkarılması;
  • Amazon, eBay ve Aliexpress gibi büyük platformlardan incelemeler, tedarikçi listeleri, derecelendirmeler ve fiyatlar gibi e-ticaret verilerini alma.

Octoparse'a entegre edilen API, web sunucusundan yanıt beklemeye gerek kalmadan verilerin alınmasını sağlayarak işlevselliğini artırır. Buluttan CRM sistemi gibi çalışma ortamınıza otomatik bilgi aktarımını mümkün kılar ve komut dosyalarının ve görev parametrelerinin özelleştirilmesine olanak tanır. Temel ihtiyaçlar için Octoparse'ın ücretsiz sürümü yeterli olabilir. Bununla birlikte, büyük ölçekli projelerin kapsamlı bir şekilde uygulanması için ücretli paket daha sağlam özellikler ve yetenekler sunar.

Octoparse fiyatlandırma planları

Octoparse üç abonelik türü sunar: ücretsiz, standart ve profesyonel. Her iki premium abonelik de sadece kayıt olup başvurarak 14 gün boyunca ücretsiz olarak denenebilir. Ücretli paketler için, satın alma işleminden sonraki 5 gün içinde geri ödeme talep etme seçeneği vardır. Ek olarak, Octoparse'deki yıllık abonelikler aylık ödemelere kıyasla daha uygun maliyetlidir.

4.png

Octoparse'deki tüm planlar aynı istemci yazılımını kullanır, temel fark her abonelik düzeyinde mevcut olan işlevsellik aralığıdır.

Free

Küçük projeler için ideal olan Octoparse'ın ücretsiz planı sınırsız sayfa işlemeye izin verir. En fazla 10 görev ayarlayabilir ve ikisini aynı anda çalıştırabilirsiniz. Bununla birlikte, ücretsiz sürüm yalnızca yerel PC başlatmalarıyla sınırlıdır; bulut ayrıştırma desteklenmez.

Standard

Küçük işletmeler ve bireysel çalışanlar için en uygun çözüm, neredeyse tüm popüler işlevlere erişim sağlar. Başlıca avantajları, çeşitli platformlar için yüzden fazla hazır şablon, 100'e kadar eşzamanlı görev, bulut süreçlerine erişim ve ayrıca:

  • IP'yi değiştirmek ve rotasyonu yapılandırmak için Octoparse'a bir proxy entegre etme yeteneği, bu da potansiyel engelleme riski olmadan istek sayısını artırmanıza olanak tanır;
  • Jpg, png, gif, doc, pdf, ppt, txt, xls ve zip formatlarında görüntü ve dosya yükleme;
  • Verilerin otomatik olarak dışa aktarılması ve API aracılığıyla erişim.

Professional

Büyük ölçekli işlemler için tasarlanan bu paket, 250'ye kadar göreve ve aynı anda 20 bulut işleminin kullanılmasına izin verir. Bir bulut otomatik kopyalama özelliği içerir. Aboneler kişiselleştirilmiş eğitim ve öncelikli teknik destek alırlar.

Tarife Free Standard Professional
Maliyet Ücretsiz

$89/ay, $900/yıl

(%16 Tasarruf)

249 $/ay, 2496 $/yıl

(%16 Tasarruf)

Görev sayısı 10 100 250
Bilgisayarda paralel yerel görevler 2 Sınırsız Sınırsız
Bulutta paralel görevler 0 6 20
IP proxy döndürme Evet Evet Evet
Proxy sunucu desteği Evet Evet Evet
Planlanmış kazıma Hayır Evet Evet
CRM ile API entegrasyonu Hayır Evet Evet
Captcha bypass Hayır Evet Evet
Görüntülerden veri toplama Evet Evet Evet

Büyük kurumsal müşteriler, özel gereksinimlerine ve ihtiyaçlarına göre uyarlanmış ısmarlama bir tarife planı talep edebilirler.

Octoparse arayüzü

Programı başlattığınızda, profilinize otomatik olarak giriş yapmak için hemen Google, Microsoft veya e-posta hesabınızı kullanarak kaydolmanızı ister. Ardından, programın neler yapabileceğine dair hızlı bir genel bakış sunan bir pencere beliriyor. Bunu takiben, sizi hızlandırmak için kısa, adım adım bir eğitim almaya davet edilirsiniz.

5.png

6.png

Kullanıcı profili

"Hesabım" sekmesi, birkaç önemli ayrıntıya ilişkin kısa bir genel bakış sunar:

  • Avatarınız, e-posta adresiniz, tam adınız, kullanıcı adınız ve şifreniz dahil olmak üzere kullanıcı verileri;
  • Aboneliğinizin türü ve son kullanma tarihi;
  • Bağladığınız tüm hesaplar;
  • Bakiyenizde mevcut olan fonları görüntüleyebilir ve ekip eylemlerini yönetebilirsiniz.

    7.png

Yeni bir görev oluşturma

Octoparse ile yapılan tüm çalışmalar, programın yürütülmesi için talimatlardan oluşan bir görevin oluşturulmasıyla başlar. Kenar çubuğunda, "Yeni" simgesine tıklamak iki seçenek sunar:

  • Özel Görev, bir görevin gelişmiş şekilde özelleştirilmesine olanak tanır.
  • Task Template, ücretli bir abonelikle erişilebilen çoğu hizmet için hazır şablonlar sunar.

    8.png

"Özel Görev "in seçilmesi URL'nin kaynağını belirlemenizi sağlar. Seçenekler arasında manuel olarak girme, bir dosyadan içe aktarma veya mevcut bir görevi kullanma yer alır. "Toplu oluştur" işlevi, belirli bir URL'ye dayalı şablonlar aracılığıyla çok sayıda bağlantı oluşturulmasını kolaylaştırır. Ek olarak, görev belirlenmiş bir gruba atanabilir.

9.png

Pano - bilgi paneli

Bilgi paneli, çeşitli yönetim seçenekleriyle birlikte mevcut görevleri görüntüler:

  • Görevler bulutta veya bilgisayarınızda çalıştırılabilir;
  • Autorun ayarları yapılandırılabilir;
  • O anda bulutta hangi görevlerin çalıştığını ve hangilerinin tamamlandığını kontrol etmek mümkündür;
  • Filtreler uygulanabilir;
  • Görevler isme göre aranabilir;
  • Görevlerle çoğaltma, verileri görüntüleme, dışa aktarma, silme ve daha fazlası gibi çeşitli eylemler gerçekleştirilebilir.

    10.png

Şablonlar

Octoparse'daki "Şablonlar" sekmesi, kazıma kuralları oluşturmaya veya herhangi bir kod yazmaya gerek kalmadan kullanıma hazır olan önceden biçimlendirilmiş görevler olan bir web kazıma şablonları koleksiyonuna sahiptir.

Şablonlar çeşitli kategoriler halinde düzenlenmiştir:

  • E-postaları, telefon numaralarını ve sosyal medya profil bağlantılarını çıkarmak için şablonlar içeren iletişim bilgileri ve potansiyel müşteriler;
  • Ürünler, fiyatlar ve teslimat seçenekleri hakkında veri toplamaya yönelik şablonları kapsayan e-ticaret;
  • Seyahat, otel isimleri, adresleri, yıldız derecelendirmeleri, olanaklar, kahvaltı müsaitliği, yorum sayıları, ortalama puanlar ve oda müsaitliği gibi ayrıntılar için şablonlar içerir;
  • Sosyal medya, kullanıcı adlarını, gönderi içeriğini, beğeni sayısını, konumları, resim veya video URL'lerini ve video açıklamalarını çekebilen şablonlar içerir.

Diğer çeşitli kaynaklar için önceden hazırlanmış ek şablonlar mevcuttur.

11.png

Geleneksel olarak, web kazıma bir görev şablonu oluşturmak için Python bilgisi gerektirir, ancak Octoparse hazır şablonları ile bunu basitleştirir. Başlamak için bir şablon seçmeniz ve bir URL belirtmeniz yeterlidir.

12.png

Araçlar

Araç çubuğu birkaç kullanışlı özellik içerir:

  • RegEx aracı, çeşitli kriterler belirleyerek düzenli ifadelerin otomatik olarak oluşturulmasını sağlar. Bu, özellikle çıkarılan verileri iyileştirmek için alan değerlerindeki karakterleri eşleştirmek veya değiştirmek için kullanışlıdır.
  • Veritabanı otomatik dışa aktarma aracı, sonuçların Excel'e veya MySQL, SQLSERVER, Oracle ve diğerleri gibi veritabanlarına otomatik olarak aktarılmasını sağlar.

    13.png

Octoparse'da yeni bir görev nasıl oluşturulur

Süreci pratik bir örnekle ele alalım:

Adım 1. Yeni bir ayrıştırma görevi oluşturma

Başlamak için "Yeni" simgesine tıklayın ve "Özel Görev "i seçin. Ardından, web sitesinin URL'sini kopyalayın ve "URL Girişi" satırına yapıştırın. Görevi kaydetmek için "Kaydet "e tıklayın. Alternatif olarak, URL'yi doğrudan ana sayfadaki arama çubuğuna girebilir ve başlamak için "Başlat "a tıklayabilirsiniz.

14.png

15.png

Adım 2. Otomatik veri alanı algılama

URL'yi girdiğinizde, Octoparse sayfayı yerleşik tarayıcısına yükleyecektir. Devam etmek için İpuçları panelindeki "Web sayfası verilerini otomatik algıla" seçeneğine tıklayın. Program daha sonra sayfayı tarayacak ve veri çıkarma için uygun alanları otomatik olarak önerecektir.

16.png

17.png

Adım 3. Veri alanlarını yapılandırma

Önerilen veri alanlarını gözden geçirin ve sayfadaki gerekli öğelerin vurgulandığından emin olun. Alttaki "Veri Önizleme" panelini kullanarak alanları yeniden adlandırabilir veya silebilirsiniz.

18.png

Adım 4. Ayrıştırma iş akışını oluşturma

Sürecin her adımını tanımlamak için "İş Akışı Oluştur "a tıklayın. Her bir eyleme tıklayarak ayrıştırıcının doğru çalıştığını doğrulayabilirsiniz.

19.png

Adım 5. Ayrıştırıcıyı başlatma ve zamanlama

Sağ üstteki "Çalıştır "a tıklayın:

20.png

İsteğin işleneceği sunucuyu seçin:

  • "Cihazınızda çalıştırın" ücretsiz sürümde bulunan bir seçenektir. Bilgisayarınızın gücünü ve internet bağlantısını kullanır.
  • "Bulutta Çalıştır" daha hızlı bir seçenektir ve sürekli kazıma için idealdir. Verilerinizi güncel tutmak için sık güncellenen içeriğe sahip dinamik web siteleri için otomatik çalıştırma planlamanıza olanak tanır.

Ayrıca buradan bir otomatik başlatma zamanlaması da yapılandırabilirsiniz:

21.png

Adım 6. Toplanan verileri dışa aktarma

Ayrıştırıcı tamamlandıktan sonra, sonuçları daha fazla analiz için Excel, CSV, HTML, XML, JSON, veritabanları veya Google E-Tablolar'a aktarabilirsiniz.

22.png

Octoparse ayrıştırıcısında adım adım proxy kurulumu

Çoğu web sitesindeki ayrıştırma korumalarını atlamak ve tek bir IP'den gelen çok sayıda eşzamanlı istek nedeniyle engellenme riskini azaltmak için, yerleşik otomatik proxy döndürme işlevini kullanmanız önerilir. Yapılandırma için kendi proxy'lerinizi ya da program tarafından sağlananları kullanabilirsiniz. Önceden oluşturulmuş bir görevin belirli bir örneğini kullanarak kurulum sürecinden geçelim:

  1. Bir görev açın ve "Görev Ayarları "na tıklayın.

    23.png

  2. "Anti-Blocking" bölümü altında, proxy erişimini etkinleştirin ve "Kendi proxy'lerimi kullan "ı seçin. Ardından, "Yapılandır" düğmesine tıklayın.

    24.png

  3. Proxy'ler için dönüş süresini ayarlayın ve proxy adreslerini IP adresi:port:kullanıcı adı:şifre biçiminde girin.

    25.png

  4. Bu ayarları uygulamak ve gerekirse ek parametreler belirlemek için "Onayla "ya tıklayın.

    26.png

  5. "Kaydet "e tıklayın ve ardından görevi çalıştırın. Bu kurulumla, IP'ler dönecek ve çerezler otomatik olarak temizlenecek ve Octoparse'deki proxy kurulumu tamamlanacaktır.

Sonuç

Octoparse'ın bu incelemesinde, temel özelliklerini, yeteneklerini, işlevlerini ve ayarlarını araştırdık. Octoparse, hem statik hem de dinamik olarak güncellenen web sitelerinden web verilerini kazımak için basit ama güçlü bir araçtır. Optimum performans ve engellenme riski olmadan sürekli veri toplama için proxy sunucuları kullanmanız tavsiye edilir. Bireysel IPv4 veya ISP veri merkezi proxy'leri kurabilirsiniz; ancak, bir adres havuzu kullanmanız ve rotasyonlarını yapılandırmanız gerekir. Alternatif olarak, daha iyi güvenilirlik için yüksek güven derecesine sahip mobil ve konut proxy'lerinin kullanılması önerilir.

Yorumlar:

0 yorumlar