Cara mengikis data Instagram menggunakan Python

26 Februari 2025

4 menit dibaca

Ringkasan yang dihasilkan oleh AI:

Mendapatkan akses ke data Instagram bisa jadi rumit karena berbagai mekanisme anti-bot, persyaratan login, dan batas nilai. Namun, Anda dapat mengekstrak informasi yang berguna dari profil publik dengan alat dan teknik yang tepat. Artikel ini akan memandu Anda tentang cara mengikis data pengguna Instagram menggunakan Python dengan membuat permintaan API ke backend Instagram, mengekstrak informasi dari data JSON yang dikembalikan, dan menyimpannya ke dalam file JSON.

Menyiapkan Pustaka yang diperlukan

Sebelum masuk ke dalam kode, pastikan Anda telah menginstal pustaka Python yang diperlukan.


pip install requests python-box

permintaan: Untuk membuat permintaan HTTP.
python-box: Menyederhanakan akses data dengan mengubah kamus menjadi objek yang memungkinkan akses notasi titik.

Kita akan memecah kode menjadi beberapa bagian untuk pemahaman yang lebih baik, termasuk mengirimkan permintaan, mendapatkan dan mengurai data, menggunakan proksi untuk menghindari deteksi, dan menyederhanakan penguraian JSON dengan pustaka Box.

Langkah 1. Membuat permintaan API

Bagian depan Instagram sangat aman, tetapi bagian belakangnya menawarkan titik akhir API yang dapat digunakan tanpa autentikasi. Kami akan menggunakan salah satu dari titik-titik ini di masa mendatang.

API ini menyediakan informasi terperinci tentang profil pengguna, termasuk deskripsi, jumlah pengikut, dan kiriman. Mari kita jelajahi cara meminta data menggunakan pustaka permintaan di Python.

Explanation:

Header: Instagram memblokir sebagian besar permintaan bot dengan menganalisis tajuk permintaan. x-ig-app-id sangat penting karena meniru permintaan yang berasal dari aplikasi Instagram itu sendiri.
String User-Agent mewakili browser yang membuat permintaan, mengelabui Instagram agar percaya bahwa itu adalah pengguna yang sebenarnya.
Permintaan API Backend: URL https://i.instagram.com/api/v1/users/web_profile_info/?username={username} adalah bagian dari API backend Instagram. API ini memberikan informasi terperinci tentang profil publik.
Menangani Respons JSON: Kita menggunakan response.json() untuk mengonversi respons API menjadi objek JSON yang dapat dengan mudah diurai dan diekstrak informasinya.


import requests

# Tentukan tajuk untuk meniru permintaan browser yang sebenarnya
headers = {
    "x-ig-app-id": "936619743392459",  # Instagram app ID to authenticate the request
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9,ru;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept": "*/*",
}

# Ganti dengan nama pengguna yang ingin Anda kikis
username = 'testtest'

# Kirim permintaan API untuk mendapatkan data profil
response = requests.get(f'https://i.instagram.com/api/v1/users/web_profile_info/?username={username}', headers=headers)
response_json = response.json()  # Mengurai respons menjadi objek JSON

Langkah 2. Menangani proksi untuk melewati pembatasan kecepatan

Karena Instagram membatasi permintaan berulang dari alamat IP yang sama, menggunakan proxy sangat penting untuk scraping skala besar. Dalam beberapa kasus, mobile proxy juga dapat dipilih ketika pengguna membutuhkan IP yang lebih dinamis untuk mengurangi risiko deteksi. Sebagai contoh, proxy Korea dapat digunakan jika pengguna ingin mengumpulkan data melalui IP dari wilayah Korea Selatan. Proksi merutekan permintaan Anda melalui alamat IP yang berbeda, sehingga membantu Anda menghindari deteksi.

Untuk menyiapkan proxy premium, Anda memerlukan alamat IP, nomor port, dan, jika diperlukan, nama pengguna dan kata sandi untuk autentikasi.

proxies = {
    'http': 'http://<proxy_username>:<proxy_password>@<proxy_ip>:<proxy_port>',
    'https': 'https://<proxy_username>:<proxy_password>@<proxy_ip>:<proxy_port>',
}

response = requests.get(f'https://i.instagram.com/api/v1/users/web_profile_info/?username={username}', headers=headers, proxies=proxies)

Langkah 3. Menyederhanakan penguraian JSON dengan Box

API Instagram mengembalikan struktur JSON bersarang yang kompleks, yang mungkin sulit untuk dinavigasi menggunakan akses berbasis kamus tradisional. Untuk mempermudah penguraian, kita dapat menggunakan pustaka Box, yang memungkinkan mengakses data JSON menggunakan notasi titik, bukan kunci kamus.

Penjelasan:

Box: Pustaka ini mengubah kamus JSON menjadi sebuah objek, sehingga kita dapat mengakses field yang bersarang menggunakan notasi titik. Sebagai contoh, alih-alih menulis response_json['data']['user']['full_name'], kita cukup menulis response_json.data.user.full_name.
Mengekstrak Data: Kami mengekstrak informasi profil yang berguna seperti nama lengkap pengguna, ID, biografi, apakah itu akun bisnis atau profesional, status verifikasi, dan jumlah pengikut.


from box import Box

response_json = Box(response.json())

# Mengekstrak data profil pengguna
user_data = {
    'full name': response_json.data.user.full_name,
    'id': response_json.data.user.id,
    'biography': response_json.data.user.biography,
    'business account': response_json.data.user.is_business_account,
    'professional account': response_json.data.user.is_professional_account,
    'category name': response_json.data.user.category_name,
    'is verified': response_json.data.user.is_verified,
    'profile pic url': response_json.data.user.profile_pic_url_hd,
    'followers': response_json.data.user.edge_followed_by.count,
    'following': response_json.data.user.edge_follow.count,
}

Langkah 4. Mengekstrak data video dan garis waktu

Setelah data profil diekstraksi, kami juga dapat mengikis data dari linimasa video pengguna dan postingan reguler.

Penjelasan:

Data Video: Bagian ini mengekstrak data tentang video Instagram pengguna, termasuk URL video, jumlah penayangan, jumlah komentar, dan durasi video.
Media Linimasa: Demikian pula, bagian ini mengekstrak data dari linimasa pengguna, menangkap URL media postingan, suka, dan komentar.


# Mengekstrak data video
profile_video_data = []
for element in response_json.data.user.edge_felix_video_timeline.edges:
    video_data = {
        'id': element.node.id,
        'short code': element.node.shortcode,
        'video url': element.node.video_url,
        'view count': element.node.video_view_count,
        'comment count': element.node.edge_media_to_comment.count,
        'like count': element.node.edge_liked_by.count,
        'duration': element.node.video_duration,
    }
    profile_video_data.append(video_data)

# Mengekstrak data media garis waktu (foto dan video)
profile_timeline_media_data = []
for element in response_json.data.user.edge_owner_to_timeline_media.edges:
    media_data = {
        'id': element.node.id,
        'short code': element.node.shortcode,
        'media url': element.node.display_url,
        'comment count': element.node.edge_media_to_comment.count,
        'like count': element.node.edge_liked_by.count,
    }
    profile_timeline_media_data.append(media_data)

Langkah 5. Menyimpan data ke file JSON

Setelah Anda mengekstrak semua data, langkah selanjutnya adalah menyimpannya ke file JSON untuk analisis atau penyimpanan lebih lanjut. Kami menggunakan modul json Python untuk menulis data yang diekstrak ke file JSON. Setiap file akan diformat dengan rapi, berkat parameter indent=4, yang membuatnya mudah untuk dibaca dan diproses.


import json

# Menyimpan data pengguna ke file JSON
with open(f'{username}_profile_data.json', 'w') as file:
    json.dump(user_data, file, indent=4)

# Menyimpan data video ke file JSON
with open(f'{username}_video_data.json', 'w') as file:
    json.dump(profile_video_data, file, indent=4)

# Menyimpan data media garis waktu ke file JSON
with open(f'{username}_timeline_media_data.json', 'w') as file:
    json.dump(profile_timeline_media_data, file, indent=4)

Kode Lengkap

Berikut ini adalah skrip Python lengkap yang menggabungkan semua bagian yang telah dibahas sebelumnya. Kode ini mengambil data profil pengguna, data video, dan data media linimasa dari Instagram, menangani header dan proksi yang diperlukan, dan menyimpan informasi yang diekstrak ke file JSON. Pendekatan teknis yang serupa juga sering diperhatikan oleh pengguna yang membandingkan solusi seperti proxy Facebook untuk tugas otomatisasi lainnya.


import requests
from box import Box
import json

# Header untuk meniru permintaan browser yang sebenarnya ke API backend Instagram
headers = {
    "x-ig-app-id": "936619743392459", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9,ru;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept": "*/*",
}

# Mengatur proxy untuk menghindari pembatasan laju dan deteksi (opsional)
proxies = {
    'http': 'http://<proxy_username>:<proxy_password>@<proxy_ip>:<proxy_port>',
    'https': 'https://<proxy_username>:<proxy_password>@<proxy_ip>:<proxy_port>',
}

# Nama pengguna Instagram yang akan dikikis
username = 'testtest'

# Kirim permintaan ke API backend Instagram untuk mendapatkan data profil
response = requests.get(f'https://i.instagram.com/api/v1/users/web_profile_info/?username={username}', 
                        headers=headers, proxies=proxies)
response_json = Box(response.json())  # Mengonversi respons ke objek Kotak untuk memudahkan navigasi

# Mengekstrak data profil pengguna
user_data = {
    'full name': response_json.data.user.full_name,
    'id': response_json.data.user.id,
    'biography': response_json.data.user.biography,
    'business account': response_json.data.user.is_business_account,
    'professional account': response_json.data.user.is_professional_account,
    'category name': response_json.data.user.category_name,
    'is verified': response_json.data.user.is_verified,
    'profile pic url': response_json.data.user.profile_pic_url_hd,
    'followers': response_json.data.user.edge_followed_by.count,
    'following': response_json.data.user.edge_follow.count,
}

# Mengekstrak data video dari timeline video pengguna
profile_video_data = []
for element in response_json.data.user.edge_felix_video_timeline.edges:
    video_data = {
        'id': element.node.id,
        'short code': element.node.shortcode,
        'video url': element.node.video_url,
        'view count': element.node.video_view_count,
        'comment count': element.node.edge_media_to_comment.count,
        'like count': element.node.edge_liked_by.count,
        'duration': element.node.video_duration,
    }
    profile_video_data.append(video_data)

# Mengekstrak data media garis waktu (foto dan video)
profile_timeline_media_data = []
for element in response_json.data.user.edge_owner_to_timeline_media.edges:
    media_data = {
        'id': element.node.id,
        'short code': element.node.shortcode,
        'media url': element.node.display_url,
        'comment count': element.node.edge_media_to_comment.count,
        'like count': element.node.edge_liked_by.count,
    }
    profile_timeline_media_data.append(media_data)

# Menyimpan data profil pengguna ke file JSON
with open(f'{username}_profile_data.json', 'w') as file:
    json.dump(user_data, file, indent=4)
print(f'saved json: {username}_profile_data.json')

# Menyimpan data video ke file JSON
with open(f'{username}_video_data.json', 'w') as file:
    json.dump(profile_video_data, file, indent=4)
print(f'saved json: {username}_video_data.json')

# Menyimpan data media garis waktu ke file JSON
with open(f'{username}_timeline_media_data.json', 'w') as file:
    json.dump(profile_timeline_media_data, file, indent=4)
print(f'saved json: {username}_timeline_media_data.json')

Mengikis data Instagram dengan Python dapat dilakukan dengan memanfaatkan API backend yang disediakan oleh Instagram, yang membantu mem-bypass beberapa batasan front-end. Menggunakan header yang tepat untuk meniru perilaku peramban dan menggunakan proksi untuk menghindari pembatasan kecepatan adalah langkah penting. Prinsip yang sama juga relevan untuk proxy game, ketika pengguna membutuhkan koneksi yang stabil dan risiko pembatasan yang lebih rendah. Pustaka Box semakin menyederhanakan prosesnya dengan membuat penguraian JSON menjadi lebih intuitif dengan notasi titik. Sebelum Anda mulai mengikis Instagram dalam skala besar, ingatlah untuk mematuhi persyaratan layanan Instagram, dan pastikan upaya pengikisan Anda tidak melanggar kebijakan mereka. Dalam skenario regional tertentu, proxy Cina juga dapat dipertimbangkan jika proses pengumpulan data memerlukan IP dari wilayah China.

Artikel sebelumnya Artikel berikutnya

Isi artikel:

Artikel terbaru

Kembali ke blog