본문 바로가기
보안/보안공부

스크래핑과 크롤링 차이

by 보안매크로 2023. 6. 18.
728x90

 데이터 스크래핑은 크롤링과 비슷한 개념입니다. 데이터 스크래핑은 만들어진 최종 결과물에서 데이터를 가져오는 기술입니다. 말그대로 어디에서? 데이터나 정보를 가져오냐, 어느정도의 선을 지키느냐에 따라 크롤링과 스크래핑의 개념이 정확히 여기서 갈라지는 것입니다. 말그대로 허락된 정보를 가져오는건 크롤링이고, 허락되지 않는 정보를 가져오는건 스크래핑입니다. 왜 스크래핑을 사용하는것일까요? 대부분 정보를 허락받지 않고 가져오는건 왠만한 사람은 불편해 합니다. 그렇기 때문에 이런 불편함을 가지고 있지만 스크래핑은 봇이 정보를 최대한 얻으려고만 합니다. 그래서 이런 작은 차이점이 존재합니다.

 그럼 스크래핑을 못하게 하려면 어떻게 해야될까요? 특정 인물이 접근하는것을 최대한 제한함으로써 과도한 트래픽을 막아 나름 도움을 받아 볼 수 있습니다. 그래서 HTML을 주기적으로 탐색하여 자주 바꿔주는 것입니다. 홈페이지가 켜질때마다 코드가 바뀌는 것도 가능합니다. 그래서 길게보고 무분별한 스크래핑을 어느정도 차단할 수 있습니다. 가장좋은점은 구글처럼 CAPTCHA를 활용하는 것입니다. 이러한 변수로 봇이 최대한 접근하려는것에 거리를 둘 수 있습니다. 이말고도 매우 방법은 많고 완벽히 차단하는 방법또한 존재하니 이러한 것도 있구나 정도만 알아두시면 좋을거같습니다.

728x90