Informasi tersebar dengan kecepatan yang luar biasa saat ini, dan banyak file yang disimpan di Google Docs. Jadi, memang, pengikisan data Google Docs adalah cara yang bagus untuk menghemat banyak waktu dan tenaga.
Pada artikel ini, kita akan membahas metode-metode yang membantu mengotomatiskan proses tersebut. Kita akan menggunakan Python untuk mengikis dokumen Google dan menyimpan file tersebut dalam format JSON yang merupakan format penyimpanan data yang umum.
Pengambilan data secara otomatis yang tersimpan di dokumen publik dapat digunakan untuk berbagai alasan. Ini membantu mengotomatiskan pengumpulan informasi tanpa campur tangan manual. Ini sangat berguna untuk:
Mengikis Google Docs dengan Python juga berguna untuk menganalisis konten file tersebut. Hal ini membuat layanan ini menjadi sumber daya yang bagus untuk menerima informasi yang akurat dan mendalam yang kemudian diproses menggunakan laporan atau melatih sistem pembelajaran mesin.
Untuk melakukan pengikisan data Google Docs secara efektif, Anda harus memilih alat yang sesuai di Python untuk tugas ini. Beberapa pustaka adalah sebagai berikut:
Memilih di antara alat bantu ini tergantung pada apakah tujuan Anda adalah membaca file atau jika Anda ingin melakukan interaksi tingkat lanjut menggunakan panggilan API pada data terstruktur.
Sekarang, saya ingin kita memeriksa bagaimana cara menyiapkan lingkungan kerja dan menyelesaikan proses yang telah diuraikan.
Pastikan Anda telah menginstal python. Selanjutnya:
python -m venv myenv
myenv\Scripts\activate
source myenv/bin/activate
pip install requests beautifulsoup4 google-api-python-client gspread google-auth
Buka file yang bersangkutan. Dokumen tersebut harus disahkan secara publik. Ikuti langkah-langkah di bawah ini:
Tanpa ini, skrip Anda akan mengembalikan kesalahan akses.
Segera setelah dokumen diterbitkan, URL-nya mengambil format berikut:
https://docs.google.com/document/d/1AbCdEfGhIjKlMnOpQrStUvWxYz/view
1AbCdEfGhIjKlMnOpQrStUvWxYz - ID file. Ini adalah bagaimana Anda akan mengakses dokumen menggunakan API atau pengikisan HTML.
Berikut adalah dua pendekatan utama untuk mengekstrak informasi dari dokumen tersebut:
HTML cukup untuk kasus yang tidak terlalu rumit, sedangkan API diperlukan untuk kasus yang lebih rumit.
Ketika sebuah file telah dipublikasikan sebagai halaman web, Anda dapat mengambil HTML-nya dan kemudian menguraikannya untuk mendapatkan informasi yang relevan:
import requests
from bs4 import BeautifulSoup
url = 'https://docs.google.com/document/d/YOUR_ID/pub'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# Ekstrak semua teks dari halaman
text = soup.get_text()
print(text)
else:
print(f'Access error: {response.status_code}')
Berikut ini adalah algoritme kerjanya:
Jika diperlukan ketelitian lebih pada informasi yang dibutuhkan, cara yang paling tepat adalah melalui handler dan dokumentasi yang dikeluarkan oleh perusahaan, dengan menggunakan Google Docs API.
Memulai langkah-langkah:
Tampilannya seperti ini:
from google.oauth2 import service_account
from googleapiclient.discovery import build
# Jalur ke file JSON akun layanan Anda
SERVICE_ACCOUNT_FILE = 'path/to/your/service_account.json'
# ID dokumen Anda
DOCUMENT_ID = 'YOUR_ID'
# Konfigurasi akses
credentials = service_account.Credentials.from_service_account_file(
SERVICE_ACCOUNT_FILE,
scopes=['https://www.googleapis.com/id/auth/documents.readonly']
)
service = build('docs', 'v1', credentials=credentials)
# Mengambil konten dokumen
document = service.documents().get(documentId=DOCUMENT_ID).execute()
# Mencetak judul dokumen
print('Document title: {}'.format(document.get('title')))
Ketika Anda memperoleh data, Anda perlu menyimpannya secara efektif agar dapat diambil di kemudian hari.
Simpan ke JSON:
import json
# Dengan asumsi Anda memiliki variabel `data` dengan konten yang diekstrak
with open('output.json', 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=4)
Setelah itu, Anda dapat menganalisis atau mengubah data sesuai kebutuhan Anda.
Mengatur pembaruan otomatis akan lebih baik daripada mengeksekusi skrip Anda sendiri.
Di bawah ini adalah contoh skrip otomatisasi:
import time
def main():
# Kode Anda untuk mengekstrak dan menyimpan data
print("Data harvesting...")
# Jalankan setiap 6 jam
while True:
main()
time.sleep(6 * 60 * 60)
Meskipun terlihat mudah saat melakukan penggalian data Google Docs, ada beberapa tantangan khusus yang harus dihadapi:
Terakhir dan tentu saja yang paling penting adalah etika:
Kami telah membahas secara mendalam tentang pengikisan data Google Docs menggunakan Python. Tingkat kerumitan proyek Anda akan menentukan apakah Anda memilih scraping HTML atau API Google Docs. Ketika berurusan dengan dokumen publik, yang terbaik adalah berhati-hati dan mempertimbangkan konsekuensi hukum dari web scraping.
Scraping tersebut memberikan kemungkinan yang sangat luas seperti melakukan penelitian, memantau perubahan, dan mengembangkan layanan khusus. Dengan pengetahuan ini, Anda dapat mengotomatiskan pengikisan dokumen Google publik dengan lancar menggunakan Python dan merampingkan otomatisasi tugas yang berulang.
Komentar: 0