My Dev & Engineering Repository

데이터 수집

크롤링 (Crawling)

크롤링(crawling)은 자동화된 스크립트를 사용하여 웹 페이지를 탐색하고 데이터를 수집하는 방법입니다.

이는 웹 사이트 전체 또는 다수의 페이지를 탐색하면서 데이터를 추출하는 과정으로, 검색 엔진의 크롤러와 유사합니다.
자동화된 스크립트: 크롤러는 특정 규칙에 따라 웹 페이지를 방문하고, 해당 페이지의 콘텐츠를 수집하는 자동화된 스크립트입니다.
전체 사이트 또는 다수의 페이지 탐색: 크롤링은 일반적으로 전체 웹 사이트를 탐색하거나, 다수의 페이지를 순차적으로 방문하여 데이터를 수집합니다.
검색 엔진의 크롤러와 유사: 검색 엔진 크롤러는 웹 페이지를 인덱싱하여 검색 결과를 제공하는데, 이와 유사한 방식으로 데이터를 수집합니다.

스크래핑 (Scrapping)

스크래핑(scraping)은 특정 웹 페이지에서 필요한 데이터를 추출하는 방법입니다. 이는 웹 크롤링의 하위 집합으로, 특정 데이터만 수집하는 데 집중합니다.

특정 웹 페이지에서 필요한 데이터 추출: 스크래핑은 웹 페이지의 특정 요소나 정보를 추출하는 과정입니다. 예를 들어, 제품 가격, 리뷰, 연락처 정보 등을 추출할 수 있습니다.
웹 크롤링의 하위 집합: 스크래핑은 크롤링의 일부로서, 크롤러가 탐색한 웹 페이지에서 특정 데이터를 추출하는 작업을 의미합니다.

데이터 수집 예시 (Scrapping)

Example Code

import requests
from bs4 import BeautifulSoup

# AI Hub 페이지 URL
url = 'https://www.aihub.or.kr/'

# 웹 페이지 요청
response = requests.get(url) response.raise_for_status() # 요청이 성공했는지 확인

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.content, 'html.parser')

# 인기 데이터 TOP3 섹션 찾기
top3_section = soup.find('div', class_='secR')

# 각 데이터 항목 추출
data_list = top3_section.find_all('div', class_='list')

# 데이터 제목 추출 titles = []
for data in data_list:
   title = data.find('h3').get_text(strip=True)
   clean_title = title.split(']')[-1].strip()
   titles.append(clean_title)
   
# 추출한 데이터 출력
for idx, title in enumerate(titles, start=1):
   print(f"TOP {idx}: {title}")

Output

OUTPUT
TOP 1: 감성 대화 말뭉치
TOP 2: 음식 이미지 및 영양정보 텍스트
TOP 3: 한국어 음성

Crawling(크롤링) & Scrapping(스크래핑)을 위한 도구

requests

개념: HTTP 요청을 보내고 응답을 받기 위한 파이썬 라이브러리 입니다.
용도: 웹 페이지의 HTML을 가져오거나, API 요청을 보내는 데 사용합니다.

BeautifulSoup

개념: HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출하기 위한 파이썬 라이브러리 입니다.
용도: 웹 페이지에서 특정 요소나 텍스트 데이터를 추출하는 데 사용합니다.

Scrapy

개념: 크롤링 및 스크래핑을 위한 파이썬 프레임워크 입니다.
용도: 대규모 웹 크롤링 작업을 구조화된 방식으로 수행하는 데 사용. 정적 웹 페이지 크롤링에 강점이 있습니다.

Selenium

개념: 웹 브라우저 자동화를 위한 파이썬 라이브러리 입니다.
용도: 실제 브라우저를 제어하여 동적인 웹 페이지에서 데이터를 수집하거나, 브라우저 상호작용을 자동화하는 데 사용합니다.

Example Code

Scrapping 라이브러리 사용 예제

import requests
from bs4 import BeautifulSoup

# AI Hub 페이지 URL
url = 'https://www.aihub.or.kr/'

# 웹 페이지 요청
response = requests.get(url)
response.raise_for_status()  # 요청이 성공했는지 확인

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.content, 'html.parser')

# 인기 데이터 TOP3 섹션 찾기
top3_section = soup.find('div', class_='secR')

# 각 데이터 항목 추출
data_list = top3_section.find_all('div', class_='list')

# 데이터 제목 추출
titles = []
for data in data_list:
    title = data.find('h3').get_text(strip=True)
    clean_title = title.split(']')[-1].strip()
    titles.append(clean_title)

# 추출한 데이터 출력
for idx, title in enumerate(titles, start=1):
    print(f"TOP {idx}: {title}")

TOP 1: 객체 간 관계성 인지용 한국형 비전 데이터
TOP 2: 손∙팔 협조에 의한 파지-조작 동작 데이터
TOP 3: 상용 자율주행차 야간 자동차 전용도로 데이터

Requests 라이브러리 및 BeautifulSoup 사용 예제

import requests
from bs4 import BeautifulSoup

# 1. 웹 페이지 요청
url = 'https://ko.wikipedia.org/wiki/위키백과:대문'
response = requests.get(url)

# 2. 요청이 성공했는지 확인
if response.status_code == 200:
    # 3. BeautifulSoup 객체 생성
    soup = BeautifulSoup(response.content, 'html.parser')

    # 4. 페이지 제목 추출
    title = soup.find('h1', id='firstHeading').text
    print(f"Title: {title}")

    # 5. 첫 번째 단락 추출
    first_paragraph = soup.find('p').text
    print(f"First paragraph: {first_paragraph}")
else:
    print(f"Failed to retrieve the web page. Status code: {response.status_code}")

Title: 위키백과:대문
First paragraph:  위키백과

Selenium 라이브러리 사용 예제

!pip install selenium

from selenium import webdriver
from selenium.webdriver.common.by import By

# URL 설정
URL = "https://ko.wikipedia.org/wiki/위키백과:대문"

# Chrome 옵션 설정
options = webdriver.ChromeOptions()
options.add_argument("--headless") # 브라우저 창을 띄우지 않음
options.add_argument('--disable-dev-shm-usage')
options.add_argument("--no-sandbox")

# 웹 드라이버 설정
driver = webdriver.Chrome(options=options)

try:
    # 위키백과 대문 페이지 열기
    driver.get(URL)

    # "우리 모두가 만들어가는 자유 백과사전"과 "문서 이하 내용" 추출
    main_content = driver.find_element(By.CSS_SELECTOR, "#mw-content-text > div.mw-content-ltr.mw-parser-output > div.main-box.main-top > div > p:nth-child(2)").text
    print("Main Content:", main_content)
finally:
    # 웹 드라이버 종료
    driver.quit()

Main Content: 우리 모두가 만들어가는 자유 백과사전
문서 674,592개와 최근 기여자 1,814명

Scrapy 라이브러리 사용 예제

# @title
!pip install scrapy

# @title
!scrapy startproject wikipedia_scraper

# @title
# wikipedia_scraper/spiders/wikipedia_spider.py
import scrapy

class WikipediaSpider(scrapy.Spider):
    name = "wikipedia"
    start_urls = [
        'https://ko.wikipedia.org/wiki/위키백과:대문',
    ]

    def parse(self, response):
        main_content = response.css('#mw-content-text > div.mw-content-ltr.mw-parser-output > div.main-pane > div.main-pane-right > div.wikipedia-ko.main-recommended.main-box').get()
        yield {
            'main_content': main_content,
        }

# @title
%%writefile -a wikipedia_scraper/wikipedia_scraper/settings.py
ROBOTSTXT_OBEY = False

import sys
import os

# 현재 작업 디렉토리를 가져옵니다.
current_dir = os.getcwd()

# 프로젝트 디렉토리 설정 (wikipedia_scraper 폴더의 상위 폴더)
project_dir = os.path.join(current_dir, 'wikipedia_scraper')

# 프로젝트 디렉토리를 PYTHONPATH에 추가합니다.
sys.path.append(project_dir)

!pwd

from scrapy.crawler import CrawlerProcess
from wikipedia_scraper.spiders.wikipedia_spider import WikipediaSpider

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'FEEDS': {
        'output.json': {
            'format': 'jsonlines',
            'encoding': 'utf8',
            'store_empty': False,
            'fields': None,
            'indent': 4,
        },
    },
})

process.crawl(WikipediaSpider)
process.start()

# @title
!python run_scrapy.py

# @title
# 출력물을 예쁘게 출력
import json
from pprint import pprint

data = []
with open('output.json', 'r') as f:
    for line in f:
        line = line.strip()  # 공백 제거
        if line:  # 빈 줄 건너뛰기
            try:
                data.append(json.loads(line))
            except json.JSONDecodeError as e:
                print(f"Error decoding JSON: {e}")

pprint(data)

저작자표시 비영리 동일조건

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

[Data Analysis] 기초 통계, 상관 & 인과관계 (0)	2024.07.18
[Data Analysis] 데이터의 종류와 속성 & 데이터 탐색 (EDA) (0)	2024.07.18
[Data Analysis] Data Analysis - 데이터 분석 (0)	2024.07.17
[Data Analysis] 데이터 전처리 (Data Pre-Processing) (0)	2024.07.12
[Data Analysis] 데이터의 활용 및 구현 (0)	2024.07.12

Notice

데이터 수집

크롤링 (Crawling)

스크래핑 (Scrapping)

데이터 수집 예시 (Scrapping)

Crawling(크롤링) & Scrapping(스크래핑)을 위한 도구

requests

BeautifulSoup

Scrapy

Selenium

Example Code

Scrapping 라이브러리 사용 예제

Requests 라이브러리 및 BeautifulSoup 사용 예제

Selenium 라이브러리 사용 예제

Scrapy 라이브러리 사용 예제

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

티스토리툴바

SUBSCRIBE

Notice

데이터 수집

크롤링 (Crawling)

스크래핑 (Scrapping)

데이터 수집 예시 (Scrapping)

Crawling(크롤링) & Scrapping(스크래핑)을 위한 도구

requests

BeautifulSoup

Scrapy

Selenium

Example Code

Scrapping 라이브러리 사용 예제

Requests 라이브러리 및 BeautifulSoup 사용 예제

Selenium 라이브러리 사용 예제

Scrapy 라이브러리 사용 예제

'📈 Data Engineering > 📊 Data Analysis' 카테고리의 다른 글

티스토리툴바