요즘은 정보가 엄청난 속도로 유출되고 많은 파일이 Google 문서 도구에 저장됩니다. 따라서 실제로 Google 문서 도구 데이터 스크래핑은 많은 시간과 노력을 절약할 수 있는 좋은 방법입니다.
이 글에서는 프로세스를 자동화하는 데 도움이 되는 방법을 살펴보겠습니다. Google 문서를 스크랩하고 이러한 파일을 일반적인 데이터 저장 형식인 JSON 형식으로 저장하는 데 Python을 사용합니다.
공개 문서에 저장된 데이터의 자동 검색은 다양한 용도로 활용될 수 있습니다. 수동 개입 없이 정보 수집을 자동화하는 데 도움이 됩니다. 이는 다음과 같은 경우에 매우 유용합니다:
Python으로 Google 문서를 스크랩하는 것은 이러한 파일의 내용을 분석하는 데에도 유용합니다. 따라서 이 서비스는 나중에 보고서나 머신 러닝 시스템 학습을 통해 처리할 정확하고 심층적인 정보를 얻을 수 있는 훌륭한 리소스입니다.
Google 문서도구 데이터 스크래핑을 효과적으로 수행하려면 이 작업에 적합한 도구를 Python에서 선택해야 합니다. 몇 가지 라이브러리는 다음과 같습니다:
이러한 도구 중 어떤 도구를 선택할지는 파일을 읽는 것이 목표인지, 아니면 구조화된 데이터에 대한 API 호출을 사용하여 고급 상호 작용을 수행하려는 것인지에 따라 달라집니다.
이제 작업 환경을 설정하고 개략적인 프로세스를 완료하는 방법을 살펴보고자 합니다.
파이썬이 설치되어 있는지 확인합니다. 다음:
python -m venv myenv
myenv\Scripts\activate
source myenv/bin/activate
pip install requests beautifulsoup4 google-api-python-client gspread google-auth
해당 파일을 엽니다. 해당 문서는 공개적으로 승인된 문서여야 합니다. 아래 단계를 따르세요:
이 기능이 없으면 스크립트에서 액세스 오류가 반환됩니다.
문서가 게시되는 즉시 URL은 다음과 같은 형식을 취합니다:
https://docs.google.com/document/d/1AbCdEfGhIjKlMnOpQrStUvWxYz/view
1AbCdEfGhIjKlMnOpQrStUvWxYz - 파일 ID입니다. API 또는 HTML 스크래핑을 사용하여 문서에 액세스하는 방법입니다.
다음은 이러한 문서에서 정보를 추출하는 두 가지 기본 접근 방식입니다:
덜 복잡한 경우에는 HTML로 충분하지만, 더 복잡한 경우에는 API가 필요합니다.
파일이 웹 페이지로 게시된 경우 해당 HTML을 검색한 다음 구문 분석하여 관련 정보를 얻을 수 있습니다:
import requests
from bs4 import BeautifulSoup
url = 'https://docs.google.com/document/d/YOUR_ID/pub'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 페이지에서 모든 텍스트 추출
text = soup.get_text()
print(text)
else:
print(f'Access error: {response.status_code}')
작동 알고리즘은 다음과 같습니다:
필요한 정보에 대해 더 정확한 정보가 필요한 경우 회사에서 발행한 핸들러 및 문서를 통해 Google 문서 API를 사용하는 것이 가장 적절한 수단입니다.
시작 단계:
다음과 같이 보입니다:
from google.oauth2 import service_account
from googleapiclient.discovery import build
# 서비스 계정 JSON 파일 경로
SERVICE_ACCOUNT_FILE = 'path/to/your/service_account.json'
# 문서 ID
DOCUMENT_ID = 'YOUR_ID'
# 액세스 구성
credentials = service_account.Credentials.from_service_account_file(
SERVICE_ACCOUNT_FILE,
scopes=['https://www.googleapis.com/ko/auth/documents.readonly']
)
service = build('docs', 'v1', credentials=credentials)
# 문서 콘텐츠 검색
document = service.documents().get(documentId=DOCUMENT_ID).execute()
# 문서 제목 인쇄
print('Document title: {}'.format(document.get('title')))
데이터를 수집할 때는 나중에 검색할 수 있도록 효과적으로 저장해야 합니다.
JSON으로 저장합니다:
import json
# 추출된 콘텐츠가 있는 변수 'data'가 있다고 가정합니다.
with open('output.json', 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=4)
그런 다음 요구 사항에 따라 데이터를 분석하거나 변경할 수 있습니다.
스크립트를 직접 실행하는 것보다 자동 업데이트를 설정하는 것이 더 낫습니다.
다음은 자동화 스크립트의 예입니다:
import time
def main():
# 데이터 추출 및 저장을 위한 코드
print("Data harvesting...")
# 6시간마다 실행
while True:
main()
time.sleep(6 * 60 * 60)
Google 문서 도구 데이터 스크래핑은 간단해 보일 수 있지만 다음과 같은 구체적인 문제가 있습니다:
마지막으로 가장 중요한 것은 윤리입니다:
Python을 사용한 Google 문서도구 데이터 스크래핑에 대해 자세히 살펴보았습니다. 프로젝트의 복잡성 수준에 따라 HTML 스크래핑을 선택할지, 아니면 Google 문서도구 API를 선택할지 결정할 수 있습니다. 공개 문서를 다룰 때는 주의를 기울이고 웹 스크래핑의 법적 영향을 고려하는 것이 가장 좋습니다.
이러한 스크래핑은 연구 수행, 변경 사항 모니터링, 전문 서비스 개발과 같은 방대한 가능성을 제공합니다. 이러한 지식을 바탕으로 Python을 사용해 공개 Google 문서 스크래핑을 원활하게 자동화하고 반복적인 작업을 간소화할 수 있습니다.
댓글: 0