크롤링이란?
크롤링은 웹 페이지를 규칙적으로 탐색하고 그 내용을 수집하는 과정입니다. 크롤링은 웹 검색엔진이 웹 사이트의 새로운 또는 변경된 정보를 발견하고, 이를 검색 결과에 반영하느 데 주로 사용됩니다. 그러나 이 기술을 다양한 다른 목적에도 사용될 수 있습니다.
ex) 데이터 분석가들은 크롤링을 사용하여 웹 사이트에서 대량의 데이터를수집하고 이를 분석하여 시장 동향, 고객 행동 등에 대한 통찰력을 얻습니다.
httrack이란?
httrack은 사용자가 웹 사이트의 전체 복사본을 쉽게 다운로드할 수 있도록 도와주는 오픈라인 브라우저 입니다. 이 도구는 웹 사이트의 모든 페이지와 관련 파일들을 다운로드하여 로컬 디스크에 저장하므로, 인터넷 연결 없이도 웹 사이트를 탐색할 수 있습니다. 웹 사이트의 구조를 분석하고 이해하는 데에도 유용합니다.
크롤링을 하기 위해 httrack를 사용하도록 하겠습니다.
사용자가 특정 웹 사이트를 다운로드할 수 있게 도와주는 툴입니다.
- enter project name : httrack이 웹 사이트 데이터를 저장하는 디렉토리 이름이 됩니다.
- base path : 웹 사이트 데이터를 저장할 기본 경로를 지정하는 곳입니다. 기본 값이 설정되어 있지만, 원한다면 다른 위치를 지정할 수 있습니다.
- enter url : 미러링하는 웹 사이트의 url을 입력하는 곳입니다. 여러 url을 동시에 입력하면 코마 또는 공백으로 구분하면 됩니다.
- proxy : 프록시 서버를 사용하려는 경우 해당 서버의 정보를 입력하는 곳입니다. 프록시 서버를 사용하지 않으면 이 항목을 무시합니다.
- wildcards : 특정 패턴의 url을 포함하거나 제외하려는 경우 사용하는 경우 사용하는 곳입니다. ex) gif 파일을 제외하고 싶다면 '-gif'를 입력하면 됩니다.
- additional options : 추가적인 크롤링 옵션을 설정하는 곳입니다. ex) 크롤링 깊이를 제한하려면 '-r<number>'를 입력하면 됩니다.
사용자에게 여러 가지 옵션이 있습니다.
- mirror web sites : 주어진 url의 웹사이트를 완전히 미러링합니다. 즉, 웹 사이트의 모든 페이지와 파일을 복사하여 로컬에 저장합니다. 이는 웹사이트의 완전한 사본을 보유하고 싶을 때 유용합니다.
- mirror web site with wizard : 웹 사이트를 미러링하는 과정을 좀 더 사용자 친화적으로 안내해주는 마법사 모드입니다. 여러 단계를 거쳐 웹 사이트를 미러링하며, 각 단계에서 사용자는 크롤링 방법, 저장 위치, 크롤링 깊이 등 다양한 옵션을 설정할 수 있습니다.
- just get files indicated : url에 대해서 단지 명시된 파일들만 다운로드합니다. 이는 특정 파일들만 웹 사이트로부터 가져오고 싶을 때 유용합니다.
- mirror all links in urls : url에 있는 모든 링크를 미러링합니다. 이는 하나의 페이지나 사이트에서 다른 사이트로 링크된 모든 페이지를 다운로드하려는 경우 유용합니다.
- test links in urls : url에 있는 모든 링크의 유효성을 확인합니다. 이는 링크가 여전히 작동하는지, 또는 페이지가 아직 존재하는지 테스트하려는 경우에 유용합니다.
크롤링이 저장되는 위치로 이동하면 어떻게 저장되고 있는지 확인 해보겠습니다.
index.html의 파일을 확인할 수 있습니다.
직접 들어가서 index.html의 파일을 확인해보면 크롤링이 되고 있는 것을 확인할 수 있습니다.
크롤링은 웹의 거대한 정보 바다에서 필요한 정보를 찾아내는데 있어, 강력한 도구가 될 수 있습니다. 그러나 이 도구를 활용할 때에는 항상 웹 사이트의 이용 약관과 저작권 그리고 개인정보 보호 등의 법적인 측면을 고려해야 합니다.
'보안공부' 카테고리의 다른 글
urlscan을 이용한 웹 사이트 분석과 정보 수집 (0) | 2023.07.19 |
---|---|
서브 도메인과 서브 도메인 이해하기 (0) | 2023.07.17 |
Netdiscover를 이용한 실시간 네트워크 정보 수집 (0) | 2023.07.14 |
정보수집단계에서 사용하는 도구 (0) | 2023.07.12 |
OSINT 활용 (0) | 2023.07.10 |