본문 바로가기

파이썬/기초파이썬

Python 햇갈리는 용어 정리 - 크롤링 , 스크래핑, 파싱

더보기

웹 크롤링, 스크래핑 , 파싱 개념 비교

크롤링(crawling) 이란?

크롤링은 크롤러가 하는 작업을 부르는 말입니다.

웹 크롤러(web crawler)란 정해진 규칙에 따라 조직적, 자동화된 방법으로 웹페이지를 브라우징하는 컴퓨터 프로그램입니다. 

여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류하는 것이다.

대체로 찾아낸 데이터를 저장한 후 쉽게 찾을 수 있게 인덱싱한다.

 

스크래핑(scraping)이란?

스크래핑이란 HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것이다.

쉽게 말해 웹 사이트의 데이터를 수집하는 모든 작업을 뜻한다.

크롤링은 웹 크롤러로 웹의 내용을 스크래핑하는 기술이라고 할 수 있다.

 

파싱(parsing)이란?

파싱이란 어떤 페이지(문서, html 등)에서 데이터/문자열을 특정 패턴이나 순서로 추출해 정보를 가공하는 것이다.

컴퓨터 과학에서는 파싱이란 문서의 내용을 의미있는 토큰(token)으로 분해하고 이들의 문법적 의미와 구조를 반영한파스 트리(parse tree)를 만드는 과정을 말한다

인터프리터(interpreter)나 컴파일러(compiler)의 구성 요소 가운데 하나로, 입력 토큰에 내제된 자료 구조를 빌드하고 입력한 단어들의 기능이 문법규칙에 맞는가를 검사하는 역할을 한다.