Cara Mengurai File CSV di Python

Komentar: 0

Penguraian data didefinisikan sebagai pengumpulan dan pemrosesan informasi secara otomatis, yang sering digunakan dalam kasus file CSV. Di sini, penguraian berarti memotong file CSV menjadi baris, kolom, dan nilai. Dengan demikian, data dapat dianalisis, disaring, dan diekstraksi untuk pekerjaan lebih lanjut dengan mudah. Pada artikel ini kami akan menjelaskan cara menggunakan Python untuk membaca file csv. Selain itu, kami akan menunjukkan cara mengurai data dari file CSV di Python.

Apa itu File CSV

CSV, atau (Comma Separated Values), adalah format file yang menyimpan data dengan cara yang memiliki nilai yang dipisahkan oleh koma dan pergeseran baris baru. Karena itu, format CSV dapat digunakan dalam berbagai konteks, seperti membuat atau memodifikasi data di Excel.

Salah satu kekuatan utama file CSV adalah kemudahan dalam mengakses dan berbagi informasi. Keunikannya memungkinkan file untuk dibuka dan diproses terlepas dari perangkat lunak yang digunakan. Hal ini memudahkan untuk mengekspor data tersebut dalam bentuk spreadsheet atau database.

Sekarang, mari kita tunjukkan cara membuka dan membaca CSV dalam Python di blok berikut.

Mengurai File CSV dengan Python

Python memiliki pustaka CSV bawaan yang dapat membaca dan menulis data dengan mudah. Menginstal perpustakaan eksternal tidak diperlukan sehingga menganalisis konten dan membuka file menjadi tugas yang mudah.

Segmen kode berikut ini menunjukkan cara membuka dan mencetak file CSV bernama university_records di Python. Kode ini menggunakan mode baca untuk membuka file, lalu membaca file CSV, dan akhirnya mencetak data dengan perulangan for.


import csv

with open('university_records.csv', 'r') as csv_file:
    reader = csv.reader(csv_file)

    for row in reader:
        print(row)

Menulis File CSV dengan Python

Untuk tujuan ini, kita akan menggunakan modul CSV untuk menulis data. Ada beberapa metode yang berguna untuk membantu Anda menulis informasi dalam modul CSV:

  • .writer() - berfungsi sebagai alat pembuatan file;
  • .writerow() - menyimpan data dalam satu baris.

Metode-metode modul diilustrasikan secara komprehensif dalam kode di bawah ini:


import csv

row = ['David', 'MCE', '3', '7.8']

row1 = ['Monika', 'PIE', '3', '9.1']

row2 = ['Raymond', 'ECE', '2', '8.5']

with open('university_records.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)

    writer.writerow(row)

    writer.writerow(row1)

    writer.writerow(row2)

Mengurai CSV dengan Perpustakaan Pandas

Menggunakan python untuk mem-parsing file CSV sangat penting saat ini: dari spreadsheet untuk keuangan hingga database kolosal untuk pembelajaran mesin. Terkadang bekerja dengan file-file tersebut cukup merepotkan, terutama ketika Anda membutuhkan lebih banyak fitur daripada yang disediakan oleh Python. Dalam kasus seperti itu, perpustakaan Pandas bisa sangat berguna.

Kemampuan penuh untuk menulis data dengan DataFrame ditunjukkan di bawah ini. DataFrame adalah salah satu struktur data utama dalam pustaka Pandas dan digunakan untuk bekerja dengan data tabel.


import pandas as pd

data = {"Name": ["David", "Monika", "Raymond"], 
        "Age": [30, 25, 40], 
        "City": ["Kyiv", "Lviv", "Odesa"]
} 

df = pd.DataFrame(data) 

file_path = "data.csv" 
df.to_csv(file_path, index=False, encoding="utf-8")



Fitur Utama Perpustakaan Pandas

Untuk Python, pustaka Pandas dianggap sebagai salah satu yang paling efektif untuk mengurai CSV dan inilah alasan mengapa ia sangat kuat dan nyaman:

  1. Pengunggahan file yang sederhana. Jika sebuah dataset berasal dari berbagai sumber dan memiliki ketidakkonsistenan dalam pemformatannya, maka Pandas membuktikan kehebatannya dengan cara yang ajaib karena mengurai file secara otomatis sehingga menghilangkan upaya manual.
  2. Skalabilitas. Ketika pustaka Python standar mencoba mengurai file CSV bervolume besar, mereka biasanya sangat lambat, tetapi dengan Pandas, pengoptimalan dilakukan karena dikalahkan dalam berkinerja baik dengan file yang lebih besar. Selain itu, fragmentasi pengunggahan file memungkinkan pencegahan kelebihan memori.
  3. Berurusan dengan berbagai proses. Nilai yang hilang, format yang salah, dan duplikat terutama ditemukan dalam file CSV. Untungnya, Pandas sekali lagi membuktikan keajaiban itu dengan alat bantu bawaan seperti data yang hilang dan penggantian tipe, pembersihan karakter, dan restrukturisasi informasi untuk analisis tingkat lanjut.

Fitur-fitur ini menunjukkan bahwa perpustakaan ini adalah yang terbaik untuk menganalisis file CSV dengan cepat karena alat lain memiliki keterbatasan. Pada saat yang sama, ia mampu memproses data dalam jumlah besar sehingga sangat berguna dalam dunia informasi.

Membaca File CSV dengan Panda

Sebelum Anda dapat menggunakan dokumen CSV, langkah pertama yang harus dilakukan adalah mengunggahnya.


import pandas as pd

df = pd.read_csv("data.csv")

Ketika berurusan dengan kumpulan data yang luas, alat bantu Pandas sangat tepat untuk digunakan. Mari kita jelajahi bagaimana skrip Python dapat mengurai file CSV.


df.head() # Menampilkan 5 baris pertama
df.tail(10) # Menampilkan 10 baris terakhir
df.info() # Mengeluarkan daftar kolom, tipe data, dan jumlah nilai yang diisi

Untuk memilih satu atau beberapa kolom, jalankan:


df["Name"] # Dapatkan kolom "Name"


df[["Name", "Age"]] # Ekstrak hanya "Name" dan "Age"

Menulis File CSV dengan Panda

Sekarang mari kita lihat cara menyisipkan, memodifikasi, dan menghapus baris tertentu.

Memasukkan baris baru:


# Memuat file CSV
df = pd.read_csv(file_path) 

# Menambahkan baris baru
new_row = pd.DataFrame([{"Name": "Denys", "Age": 35, "City": "Kharkiv"}]) df = pd.concat([df, new_row], ignore_index=True) 


# Simpan
df.to_csv(file_path, index=False, encoding="utf-8")

Memodifikasi baris tertentu:


df = pd.read_csv(file_path) 

# Ubah usia Ivan
df.loc[df["Name"] == "Ivan", "Age"] = 26 

df.to_csv(file_path, index=False, encoding="utf-8")

Menghapus baris:


df = pd.read_csv(file_path) 

# Hapus baris di mana Name == "Mykhailo" 
df = df[df["Name"] != "Mykhailo"] 

df.to_csv(file_path, index=False, encoding="utf-8")

Kesimpulan

Singkatnya, dalam artikel ini kami menunjukkan cara membuka dan membaca file CSV di Python. Namun, kapan pun pengguna membutuhkan akurasi yang lebih tinggi dan alat penerjemah yang kuat, Pandas bekerja dengan sempurna. Mengotomatiskan proses yang berulang-ulang, memungkinkan penanganan file yang sangat besar dan menghemat waktu, library ini sangat efektif. Oleh karena itu, dapat disimpulkan bahwa untuk fungsi-fungsi dasar, library CSV standar menyediakan kebutuhannya, sedangkan Pandas dibuat untuk menangani data informasi yang luas.

Komentar:

0 komentar