Comment analyser les fichiers CSV en Python

11.03.2025

Commentaires: 0

Contenu de l’article:

Qu'est-ce qu'un fichier CSV ?
Analyse des fichiers CSV avec Python
Écrire des fichiers CSV avec Python
Analyse CSV avec la bibliothèque Pandas

Principales caractéristiques de la bibliothèque Pandas

Lire des fichiers CSV avec Pandas
Écrire des fichiers CSV avec Pandas
Conclusion

L'analyse syntaxique des données est définie comme la collecte et le traitement automatiques d'informations, souvent utilisés dans le cas de fichiers CSV. Dans ce cas, l'analyse consiste à découper les fichiers CSV en lignes, colonnes et valeurs. Ce faisant, les données peuvent être analysées, filtrées et extraites pour un travail ultérieur sans effort. Dans cet article, nous expliquerons comment utiliser Python pour lire des fichiers CSV. En outre, nous montrerons comment analyser les données d'un fichier CSV en Python.

Qu'est-ce qu'un fichier CSV ?

CSV, ou (Comma Separated Values), est un format de fichier qui enregistre des données dont les valeurs sont séparées par des virgules et des retours à la ligne. Pour cette raison, le format CSV peut être utilisé dans divers contextes, comme la création ou la modification de données dans Excel.

L'un des principaux atouts des fichiers CSV est la facilité d'accès et de partage de l'information. Son caractère unique permet au fichier d'être ouvert et traité quel que soit le logiciel utilisé. Il est donc pratique d'exporter ces données sous la forme d'une feuille de calcul ou d'une base de données.

Maintenant, montrons comment ouvrir et lire un fichier CSV en Python dans le bloc suivant.

Analyse des fichiers CSV avec Python

Python dispose d'une bibliothèque CSV intégrée capable de lire et d'écrire des données avec facilité. Il n'est pas nécessaire d'installer des bibliothèques externes, ce qui rend l'analyse du contenu et l'ouverture des fichiers très faciles.

Les segments de code suivants montrent comment ouvrir et imprimer un fichier СSV appelé university_records en Python. Il utilise le mode lecture pour ouvrir le fichier, puis il lit le fichier CSV et enfin, il imprime les données à l'aide d'une boucle for.


import csv

with open('university_records.csv', 'r') as csv_file:
    reader = csv.reader(csv_file)

    for row in reader:
        print(row)

Écrire des fichiers CSV avec Python

À cette fin, nous utiliserons le module CSV pour écrire des données. Il existe des méthodes utiles pour vous aider à écrire des informations dans le module CSV :

.writer() - sert d'outil de création de fichiers;
.writerow() - stocke les données dans une ligne.

Les méthodes du module sont illustrées de manière exhaustive dans le code ci-dessous :


import csv

row = ['David', 'MCE', '3', '7.8']

row1 = ['Monika', 'PIE', '3', '9.1']

row2 = ['Raymond', 'ECE', '2', '8.5']

with open('university_records.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)

    writer.writerow(row)

    writer.writerow(row1)

    writer.writerow(row2)

Analyse CSV avec la bibliothèque Pandas

L'utilisation de Python pour analyser les fichiers CSV est cruciale de nos jours : des feuilles de calcul pour la finance aux bases de données colossales pour l'apprentissage automatique. Travailler avec ces fichiers est parfois pénible, en particulier lorsque vous avez besoin de plus de fonctionnalités que celles fournies par Python. Dans ce cas, la bibliothèque Pandas peut s'avérer très utile.

La capacité complète d'écriture de données avec DataFrame est démontrée ci-dessous. DataFrame est l'une des principales structures de données de la bibliothèque Pandas et est utilisée pour travailler avec des données tabulaires.


import pandas as pd

data = {"Name": ["David", "Monika", "Raymond"], 
        "Age": [30, 25, 40], 
        "City": ["Kyiv", "Lviv", "Odesa"]
} 

df = pd.DataFrame(data) 

file_path = "data.csv" 
df.to_csv(file_path, index=False, encoding="utf-8")

Principales caractéristiques de la bibliothèque Pandas

Pour Python, la bibliothèque Pandas est considérée comme l'une des plus efficaces pour analyser les fichiers CSV et voici les raisons pour lesquelles elle est si puissante et pratique:

Chargement simple de fichiers. Si un ensemble de données provient d'origines multiples et présente des incohérences dans son formatage, Pandas fait preuve de magie en analysant automatiquement le fichier, éliminant ainsi tout effort manuel.
Évolutivité. Lorsque les bibliothèques Python standard essaient d'analyser de gros volumes de fichiers CSV, elles sont généralement à la traîne, mais avec Pandas, l'optimisation est faite car elle est plus performante avec les gros fichiers. De plus, la fragmentation du téléchargement du fichier permet d'éviter la surcharge de la mémoire.
Traiter les différents processus. Les valeurs manquantes, les mauvais formats et les doublons se retrouvent principalement dans les fichiers CSV. Heureusement, Pandas prouve une fois de plus cette magie grâce à des outils intégrés tels que le remplacement des données manquantes et des types, le nettoyage des caractères et la restructuration des informations pour une analyse avancée.

Ces caractéristiques montrent que la bibliothèque est la meilleure pour analyser rapidement les fichiers CSV, les autres outils étant limités en comparaison. En même temps, elle est capable de traiter de grandes quantités de données, ce qui la rend extrêmement utile dans le monde de l'information.

Lire des fichiers CSV avec Pandas

Avant de pouvoir utiliser le document CSV, la première étape consiste à le télécharger.


import pandas as pd

df = pd.read_csv("data.csv")

Lorsqu'il s'agit de traiter des ensembles de données volumineux, les outils Pandas sont appropriés. Voyons comment un script Python peut analyser un fichier CSV.


df.head() # Affiche les 5 premières lignes
df.tail(10) # Affiche les 10 dernières lignes
df.info() # Donne une liste des colonnes, des types de données et du nombre de valeurs remplies

Pour sélectionner une ou plusieurs colonnes, exécutez:


df["Name"] # Obtenir la colonne "Name"


df[["Name", "Age"]] # Extraire uniquement le "Name" et "Age"

Écrire des fichiers CSV avec Pandas

Voyons maintenant comment insérer, modifier et supprimer des lignes particulières.

Insertion d'une nouvelle ligne:


# Charger le fichier CSV
df = pd.read_csv(file_path) 

# Ajouter une nouvelle ligne
new_row = pd.DataFrame([{"Name": "Denys", "Age": 35, "City": "Kharkiv"}]) df = pd.concat([df, new_row], ignore_index=True) 


# Économiser
df.to_csv(file_path, index=False, encoding="utf-8")

Modification d'une ligne particulière:


df = pd.read_csv(file_path) 

# Modifier l'âge d'Ivan
df.loc[df["Name"] == "Ivan", "Age"] = 26 

df.to_csv(file_path, index=False, encoding="utf-8")

Suppression d'une ligne:


df = pd.read_csv(file_path) 

# Supprimer la ligne où Nom == "Mykhailo" 
df = df[df["Name"] != "Mykhailo"] 

df.to_csv(file_path, index=False, encoding="utf-8")

Conclusion

En résumé, nous avons montré dans cet article comment ouvrir et lire un fichier CSV en Python. Mais lorsqu'un utilisateur a besoin d'une plus grande précision et d'outils d'interprétation puissants, Pandas fonctionne parfaitement. Automatisant les processus répétitifs, permettant de traiter des fichiers massifs et de gagner du temps, cette bibliothèque est très efficace. On peut donc conclure que pour les fonctions de base, la bibliothèque CSV standard répond aux besoins, tandis que Pandas est conçu pour traiter des données d'information volumineuses.

Commentaires:

0 Commentaires

Article précédent

Article suivant