ازگر میں CSV فائلوں کی تجزیہ کیسے کریں

تبصرے: 0

ڈیٹا پارسنگ کو معلومات کے خود کار طریقے سے جمع کرنے اور پروسیسنگ کے طور پر بیان کیا جاتا ہے ، جو اکثر CSV فائلوں کے معاملے میں استعمال ہوتا ہے۔ یہاں پارسنگ کا مطلب ہے CSV فائلوں کو قطاریں ، کالم اور اقدار میں سلائس کرنا۔ ایسا کرنے سے ، اعداد و شمار کا تجزیہ کیا جاسکتا ہے ، فلٹر کیا جاسکتا ہے ، اور مزید کام کے لئے آسانی سے نکالا جاسکتا ہے۔ اس مضمون میں ہم وضاحت کریں گے کہ CSV فائلوں کو پڑھنے کے لئے Python کو کس طرح استعمال کریں۔ مزید برآں ، ہم دکھائیں گے کہ Python میں CSV فائل سے ڈیٹا کو کس طرح تجزیہ کیا جائے۔

CSV فائل کیا ہے؟

CSV، یا (Comma Separated Values)، ایک فائل فارمیٹ ہے جو ڈیٹا کو اس طرح محفوظ کرتا ہے کہ اس میں قیمتیں کاما کے ذریعے اور نئی لائن شفٹ کے ذریعے الگ کی جاتی ہیں۔ اس وجہ سے، CSV فارمیٹ کو مختلف سیاق و سباق میں استعمال کیا جا سکتا ہے، جیسے کہ ایکسل میں ڈیٹا بنانا یا ترمیم کرنا۔

CSV فائلوں کی ایک اہم طاقت یہ ہے کہ ان تک رسائی اور معلومات کا اشتراک کرنا بہت آسان ہوتا ہے۔ اس کی خصوصیت اسے کسی بھی سافٹ ویئر کے ذریعے کھولنے اور پروسیس کرنے کی اجازت دیتی ہے، چاہے آپ جو سافٹ ویئر استعمال کر رہے ہوں۔ اس سے ایسی ڈیٹا کو اسپریڈ شیٹ یا ڈیٹا بیس کی شکل میں برآمد کرنا آسان ہو جاتا ہے۔

اب ہم دکھائیں گے کہ Python میں CSV کو کیسے کھولا اور پڑھا جائے۔

Python کے ساتھ CSV فائلز پارس کرنا

Python میں ایک بلٹ ان CSV لائبریری موجود ہے جو ڈیٹا کو آسانی سے پڑھنے اور لکھنے کی صلاحیت رکھتی ہے۔ بیرونی لائبریریوں کو انسٹال کرنا ضروری نہیں ہے، جو مواد کا تجزیہ کرنے اور فائلوں کو کھولنے کو اتنا آسان بناتا ہے۔

ذیل میں کوڈ کے کچھ حصے دکھائے گئے ہیں کہ Python میں university_records نام کی CSV فائل کو کیسے کھولا اور پرنٹ کیا جائے۔ یہ فائل کو پڑھنے کے موڈ میں کھولتا ہے، پھر CSV فائل کو پڑھتا ہے، آخرکار یہ ڈیٹا کو ایک for لوپ کے ذریعے پرنٹ کرتا ہے۔


import csv

with open('university_records.csv', 'r') as csv_file:
    reader = csv.reader(csv_file)

    for row in reader:
        print(row)

Python کے ساتھ CSV فائلز لکھنا

اس مقصد کے لیے، ہم ڈیٹا لکھنے کے لیے CSV ماڈیول کا استعمال کریں گے۔ CSV ماڈیول میں معلومات لکھنے میں مدد کرنے کے لیے مفید طریقے ہیں:

  • ()writer. – فائل بنانے کا ٹول کے طور پر کام کرتا ہے؛
  • ()writerow. – ڈیٹا کو ایک صف میں محفوظ کرتا ہے۔

ماڈیول کے طریقے کوڈ میں جامع طور پر وضاحت کے ساتھ دکھائے گئے ہیں:


import csv

row = ['David', 'MCE', '3', '7.8']

row1 = ['Monika', 'PIE', '3', '9.1']

row2 = ['Raymond', 'ECE', '2', '8.5']

with open('university_records.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)

    writer.writerow(row)

    writer.writerow(row1)

    writer.writerow(row2)

پینڈاز لائبریری کے ساتھ CSV پارس کرنا

آج کل Python کا استعمال کرکے CSV فائلز پارس کرنا بہت ضروری ہو چکا ہے: مالیاتی اسپریڈشیٹس سے لے کر مشین لرننگ کے لیے بڑے ڈیٹا بیس تک۔ کبھی کبھار ان فائلز کے ساتھ کام کرنا تکلیف دہ ہوتا ہے، خاص طور پر جب آپ کو Python کی فراہم کردہ خصوصیات سے زیادہ کی ضرورت ہوتی ہے۔ ایسے معاملات میں، پینڈاز لائبریری مددگار ثابت ہو سکتی ہے۔

ڈیٹا کو DataFrame کے ساتھ لکھنے کی مکمل صلاحیت نیچے دکھائی گئی ہے۔ DataFrame پینڈاز لائبریری کی ایک اہم ڈیٹا ساخت ہے اور اس کا استعمال جدول کے ڈیٹا کے ساتھ کام کرنے کے لیے کیا جاتا ہے۔


import pandas as pd

data = {"Name": ["David", "Monika", "Raymond"], 
        "Age": [30, 25, 40], 
        "City": ["Kyiv", "Lviv", "Odesa"]
} 

df = pd.DataFrame(data) 

file_path = "data.csv" 
df.to_csv(file_path, index=False, encoding="utf-8")

Pandas لائبریری کی کلیدی خصوصیات

Python کے لئے Pandas لائبریری کو CSV کی تجزیہ کرنے کے لئے سب سے موثر سمجھا جاتا ہے اور یہاں وجوہات یہ ہیں کہ یہ اتنا طاقتور اور آسان ہے۔

  1. آسان فائل اپ لوڈ۔ اگر کوئی ڈیٹاسیٹ متعدد اصلیت سے آتا ہے اور اس کی شکل میں اس کی عدم مطابقت ہوتی ہے ، تو Pandas یہ ثابت کرتے ہیں کہ اس کا اعلیٰ شخص جادوئی ہے کیونکہ یہ فائل کو خود بخود دستی کوشش کو ختم کرنے والی فائل کی تجزیہ کرتا ہے۔
  2. اسکیل ایبلٹی۔ جب معیاری Python لائبریریاں بڑی مقدار میں CSV کی فائلوں کی تجزیہ کرنے کی کوشش کرتی ہیں تو ، وہ عام طور پر بہت پیچھے رہ جاتے ہیں لیکن پانڈوں کے ساتھ ، اصلاح کی جاتی ہے کیونکہ یہ بڑی فائلوں کے ساتھ اچھی کارکردگی کا مظاہرہ کرنے میں ٹرمپ ہے۔ نیز ، فائل اپ لوڈ کا ٹکڑا میموری اوورلوڈ کی روک تھام کے قابل بناتا ہے۔
  3. مختلف عملوں سے نمٹنا۔ گمشدہ اقدار ، غلط فارمیٹس اور نقول بنیادی طور پر CSV فائلوں میں پائے جاتے ہیں۔ اچھی بات یہ ہے کہ Pandas نے پھر سے یہ ثابت کیا کہ ٹولز جیسے لاپتہ ڈیٹا اور ٹائپ ریپلیسمنٹ ، کریکٹر صاف کرنے ، اور جدید تجزیہ کے ل معلومات کی تنظیم نو جیسے ٹولز کے ساتھ جادو۔

ان خصوصیات سے پتہ چلتا ہے کہ CSV فائلوں کو جلدی سے تجزیہ کرنے کے لئے لائبریری بہترین ہے کیونکہ اس کے مقابلے میں دیگر ٹولز محدود ہیں۔ ایک ہی وقت میں ، یہ بڑی مقدار میں ڈیٹا پر کارروائی کرنے کے قابل ہے جو اسے معلومات کی دنیا میں انتہائی مفید بناتا ہے۔

پانڈوں کے ساتھ CSV فائلوں کو پڑھنا

اس سے پہلے کہ آپ CSV دستاویز کو استعمال کرسکیں ، پہلا قدم اسے اپ لوڈ کرنا ہے۔


import pandas as pd

df = pd.read_csv("data.csv")

وسیع ڈیٹاسیٹس سے نمٹنے کے وقت ، Pandas ٹول استعمال کے ل  مناسب ہیں۔ آئیے دریافت کریں کہ ایک Python اسکرپٹ سی ایس وی فائل کو کس طرح پارس کرسکتا ہے۔


df.head() # Shows the first 5 rows
df.tail(10) # Shows the last 10 rows
df.info() # Outputs a list of columns, data types, and the number of filled values

ایک یا ایک سے زیادہ کالموں کو منتخب کرنے کے لئے ، عمل کریں:


df["Name"] # Get the column "Name"


df[["Name", "Age"]] # Extract only "Name" and "Age"

پانڈوں کے ساتھ CSV فائلیں لکھنا

اب آئیے دیکھتے ہیں کہ خاص قطاروں کو داخل کرنے ، اس میں ترمیم کرنے اور اسے ہٹانے کا طریقہ۔

ایک نئی قطار داخل کرنا:


# Load the CSV file
df = pd.read_csv(file_path) 

# Add a new row
new_row = pd.DataFrame([{"Name": "Denys", "Age": 35, "City": "Kharkiv"}]) df = pd.concat([df, new_row], ignore_index=True) 


# Save
df.to_csv(file_path, index=False, encoding="utf-8")

ایک خاص قطار میں ترمیم کرنا:


df = pd.read_csv(file_path) 

# Change the age of Ivan
df.loc[df["Name"] == "Ivan", "Age"] = 26 

df.to_csv(file_path, index=False, encoding="utf-8")

ایک قطار کو ہٹانا:


df = pd.read_csv(file_path) 

# Remove the row where Name == "Mykhailo" 
df = df[df["Name"] != "Mykhailo"] 

df.to_csv(file_path, index=False, encoding="utf-8")

نتیجہ

خلاصہ کرنے کے لئے ، اس مضمون میں ہم نے دکھایا کہ کس طرح Python میں CSV فائل کو کھولنا اور پڑھنا ہے۔ لیکن جب بھی صارف کو زیادہ سے زیادہ درستگی اور طاقتور ترجمانی کرنے والے ٹولز کی ضرورت ہوتی ہے تو ، Pandas بالکل کام کرتا ہے۔ بار بار ہونے والے عمل کو خودکار کرنا ، بڑے پیمانے پر فائلوں کو سنبھالنے اور وقت کی بچت کے لئے اجازت دیتے ہوئے ، یہ لائبریری بہت موثر ہے۔ لہذا ، یہ نتیجہ اخذ کیا جاسکتا ہے کہ بنیادی افعال کے لئے ، معیاری CSV لائبریری تقاضے فراہم کرتی ہے ، جبکہ پانڈوں کو وسیع معلومات کے اعداد و شمار سے نمٹنے کے لئے بنایا گیا ہے۔

تبصرے:

0 تبصرے