크롤링이란?

크롤링은 웹 페이지를 규칙적으로 탐색하고 그 내용을 수집하는 과정입니다. 크롤링은 웹 검색엔진이 웹 사이트의 새로운 또는 변경된 정보를 발견하고, 이를 검색 결과에 반영하느 데 주로 사용됩니다. 그러나 이 기술을 다양한 다른 목적에도 사용될 수 있습니다.

ex) 데이터 분석가들은 크롤링을 사용하여 웹 사이트에서 대량의 데이터를수집하고 이를 분석하여 시장 동향, 고객 행동 등에 대한 통찰력을 얻습니다.

 

httrack이란?

httrack은 사용자가 웹 사이트의 전체 복사본을 쉽게 다운로드할 수 있도록 도와주는 오픈라인 브라우저 입니다. 이 도구는 웹 사이트의 모든 페이지와 관련 파일들을 다운로드하여 로컬 디스크에 저장하므로, 인터넷 연결 없이도 웹 사이트를 탐색할 수 있습니다. 웹 사이트의 구조를 분석하고 이해하는 데에도 유용합니다.

 

크롤링을 하기 위해 httrack를 사용하도록 하겠습니다.

사용자가 특정 웹 사이트를 다운로드할 수 있게 도와주는 툴입니다.

  • enter project name : httrack이 웹 사이트 데이터를 저장하는 디렉토리 이름이 됩니다.
  • base path : 웹 사이트 데이터를 저장할 기본 경로를 지정하는 곳입니다. 기본 값이 설정되어 있지만, 원한다면 다른 위치를 지정할 수 있습니다.
  • enter url : 미러링하는 웹 사이트의 url을 입력하는 곳입니다. 여러 url을 동시에 입력하면 코마 또는 공백으로 구분하면 됩니다.
  • proxy : 프록시 서버를 사용하려는 경우 해당 서버의 정보를 입력하는 곳입니다. 프록시 서버를 사용하지 않으면 이 항목을 무시합니다.
  • wildcards : 특정 패턴의 url을 포함하거나 제외하려는 경우 사용하는 경우 사용하는 곳입니다. ex) gif 파일을 제외하고 싶다면 '-gif'를 입력하면 됩니다.
  • additional options : 추가적인 크롤링 옵션을 설정하는 곳입니다. ex) 크롤링 깊이를 제한하려면 '-r<number>'를 입력하면 됩니다.

 

사용자에게 여러 가지 옵션이 있습니다.

  • mirror web sites : 주어진 url의 웹사이트를 완전히 미러링합니다. 즉, 웹 사이트의 모든 페이지와 파일을 복사하여 로컬에 저장합니다. 이는 웹사이트의 완전한 사본을 보유하고 싶을 때 유용합니다.
  • mirror web site with wizard : 웹 사이트를 미러링하는 과정을 좀 더 사용자 친화적으로 안내해주는 마법사 모드입니다. 여러 단계를 거쳐 웹 사이트를 미러링하며, 각 단계에서 사용자는 크롤링 방법, 저장 위치, 크롤링 깊이 등 다양한 옵션을 설정할 수 있습니다.
  • just get files indicated : url에 대해서 단지 명시된 파일들만 다운로드합니다. 이는 특정 파일들만 웹 사이트로부터 가져오고 싶을 때 유용합니다.
  • mirror all links in urls : url에 있는 모든 링크를 미러링합니다. 이는 하나의 페이지나 사이트에서 다른 사이트로 링크된 모든 페이지를 다운로드하려는 경우 유용합니다.
  • test links in urls : url에 있는 모든 링크의 유효성을 확인합니다. 이는 링크가 여전히 작동하는지, 또는 페이지가 아직 존재하는지 테스트하려는 경우에 유용합니다.

 

크롤링이 저장되는 위치로 이동하면 어떻게 저장되고 있는지 확인 해보겠습니다.

index.html의 파일을 확인할 수 있습니다.

직접 들어가서 index.html의 파일을 확인해보면 크롤링이 되고 있는 것을 확인할 수 있습니다.

크롤링은 웹의 거대한 정보 바다에서 필요한 정보를 찾아내는데 있어, 강력한 도구가 될 수 있습니다. 그러나 이 도구를 활용할 때에는 항상 웹 사이트의 이용 약관과 저작권 그리고 개인정보 보호 등의 법적인 측면을 고려해야 합니다.

 

urlscan이란

urlscan은 웹 사이트의 스냅샷을 생성하고 분석하는데 사용되는 온라인 도구 입니다. 이 도구는 웹 사이트에 대한 정보를 깊게 파고 들고, 웹 사이트의 동작 방식, 사용하는 기술, 연관된 도메인, 사용자 행동 등에 대한 통찰력을 제공합니다. urlscan은 보안 전문가, 개발자, 연구자들에게 유용한 정보를 제공하며, 사이트의 보안 상태를 검토하거나 악성 사이트를 식별하는데 도움이 됩니다.

 

https://urlscan.io/

 

URL and website scanner - urlscan.io

User Agent Default - Latest Google Chrome Stable on Windows 10 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) C

urlscan.io

검색 착에 분석하고자 하는 웹 사이트의 url을 입력하고 scan을 클릭합니다.

입력한 url의 스냅샷을 생성하며, 이 과정은 몇 분 정도 소요될 수 있습니다.

스냅샷 생성이 완료되면 urlscan은 웹 사이트에 대한 다양한 정보를 보여줍니다. 여기에는 http응답, 웹사이트에서 사용하는 자바스크립트 라이브러리, 웹 사이트와 관련된 메모인 등의 정보가 포함됩니다.

lookop에 들어가 보면 다른 사이트들하고 연결되어 있는 것을 확인할 수 있습니다.

 

 

  • 최근 일주일 동안 비어있지 않은 스캔 결과 찾기 : 검색하면, 최근 일주일 동안 스캔 된 결과 중 IP주소 정보가 있는 스캔 결과를 찾을 수 있습니다.
  • 특정 페이지 url 접두사로 검색하기 : 검색하면, url이 "www.test.com"으로 시작하는 페이지를 찾을 수 있습니다.
  • 도메인에 연결되었지만 페이지/기본 도메인이 아닌걸 찾기 : 검색하면 페이지 또는 기본 도메인이 아닌곳에서 paypal.com 도메인으로 연락한 사례를 찾을 수 있습니다.
  • 도메인 이름에 대한 퍼지 검색 : 도메인 이름이 "paypal.com"과 유사하지만 정확하게 일치하지 않는 페이지를 찾을 수 있습니다.
  • 도메인 이름에서 정규 도메인 제외 : 도메인 이름이 "paypal" 패턴에 일치하면서 "paypal.com"이 아닌 페이지를 찾을 수 있습니다.
  • 특정 IP대역에서 특정 IP를 제외하고 검색하기 : 2018년 2019년 사이에 148.251.0.0/16 IP 대역에서 호스팅 된 페이지 중 148.251.45.170 IP를 가진 페이지를 제외하고 검색할 수 있습니다.
  • 특정 as에서 호스트된 페이지 검색하기 : hetzner에 호스팅된 페이지를 찾을 수 있습니다.
  • 경로 또는 파일명에 특정 텍스트가 포함된 페이지 찾기 : 최근 한 달 동안에 "wp-content/uploads" 경로를 포함하거나 파일 이름에 'wp-content/uploads'를 포함하는 페이지를 찾을 수 있습니다.

인터넷에서 웹 사이트를 방문하거나 이메일 보낼 때, 우리는 자주 도메인 이름을 사용합니다. 서버 도메인과 서브 도메인이 무엇인지, 그리고 이를 검색하는 방법과 중요성에 대해서 알아보겠습니다.

 

서버 도메인이란?

서버 도메인은 인터넷에서 컴퓨터나 네트워크를 식별하는 주소입니다. 이 주소는 IP주소를 기반으로 하지만, 사람이 기억하고 사용하기 쉽도록 텍스트 형태로 표시합니다

ex) 192.168.0.1 이라는 IP주소 대신 www.test.com  이라는 도메인 이름을 사용할 수 있습니다.

 

서브도메인이란?

서브도메인은 메인 도메인 아래에 있는 추가적인 도메인입니다. 이는 메인 웹 사이트 특정 부분이나 페이지를 가리키는데 사용될 수 있습니다.

 

서브도메인 검색 방법

서브도메인을 찾는 방법에는 여러 가지가 있습니다. 일반적으로 DNS 조회 도구를 사용하여 특정 도메인에 대한 서브도메인을 찾습니다. 이러한 도구는 인터넷에서 쉽게 찾을 수 있으며, 일반적으로 도메인 이름을 입력하면 관련된 서브도메인을 나열해줍니다.

ex) DNSDumpster 웹 사이트를 활용하면 서브도메인 목록을 확인할 수 있습니다. 이러한 방법을 통해 서브도메인을 찾아내고 이를 통해 보안 위협을 탐지하거나 웹사이트의 구조를 더 잘 이해할 수 있습니다.

 

중요성

서브도메인은 여러 가지 이유로 중요합니다. 먼저 웹 사이트의 구조를 나누고, 사용자에게 다양한 서비스를 제공하는 데 필요한 도구입니다. 예를 들어, 회사는 제품 페이지, 지원 페이지, 블로그 등을 별도의 서브 도메인으로 설정하여 사용자에게 쉽게 찾을 수 있도록 할 수 있습니다.

 

서브 도메인은 보안 측명에서도 중요합니다. 해커들은 종종 미확인의 서브 도메인을 대상으로 공격을 시도합니다. 이는 보안 설정이 누락되었거나, 업데이트가 제대로 이루어지지 않은 서브 도메인이 취약점을 가질 수 있기 때문입니다. 이런 이유로 조직은 자신의 모든 서브 도메인을 파악하고, 각각에 대한 보안을 철저히 관리해야 합니다.

 

서버 도메인과 서브 도메인은 인터넷 핵심 구성 요소이며, 웹 사이트의 구조를 이해하고, 사용자에게 효율적인 서비스를 제공하는 데 필수적입니다. 보안 관리를 통해 조직의 정보 보호를 강화하는데 중요한 역할을 합니다.

Netdiscover는 간단하고 강력한 네트워크 탐색 도구 입니다. 이 도구는 능동적인 스캔과 수동적인 스캔을 모두 지원하며, 로컬 네트워크의 활성화된 IP를 식별할 수 있습니다. 이를 통해, 시스템 관리자나 보안 전문가는 네트워크의 환경을 이해하고, 이상 행동이나 취약점을 파악하는데 도움을 받을 수 있습니다.

 

무선 ap에 접속한 후 근접 네트워크 실시간 수집

무선 ap에 접속하면, netdiscover를 이용해 해당 네트워크 내에 연결된 다른 장치들의 정보를 실시간으로 수집할 수 있습니다. 이 는 공격자는 네트워크의 토포로지를 이해하고, 대상을 선정하는 데 도움이 됩니다.

 

대역을 지정해주지 않으면 B class부터 모든 대역을 스캔을 합니다. 그러므로 많은 시간을 소비합니다.

 

C class 대역에 대해서 만 확인을 하기 위해서 지정을 하겠습니다.

 

wmware라서 외부하고만 연결된 것을 확인할 수 있습니다.

 

 

장점

  • 간단하고 직관적인 사용법 : netdiscover의 사용법은 매우 간단합니다. 몇 개의 기본적인 명령어로도 네트워크 내의 장치들을 식별하고 그들의 IP와 MAC 주소를 파악할 수 있습니다. 이로써 사용자는 복잡한 설정이나 스크립트 없어도 손쉽게 네트워크를 탐색할 수 있습니다.
  • 능동적인 스캔과 수동적이 스니핑 모두 기능 : arp 요청을 이용한 능동적인 스캔 뿐 아니라, 네트워크 트랙픽을 스니핑하는 수동적인 스캔 모드를 모두 지원합니다. 이를 통해 사용자는 상황에 따라 적합한 방법을 선택하여 정보를 수집할 수 있습니다.
  • 실시간 네트워크 정보 제공 : 실시간으로 네트워크의 변화를 감지하고 정보를 업데이트합니다. 이로써 사용자는 네트워크의 현재 상황을 실시간으로 파악하고, 즉시 대응할 수 있습니다.
  • 오픈 소스 : 오픈 소스 도구로, 누구나 소스 코드를 자유롭게 이용하고 수정할 수 있습니다. 이는 도구의 기능을 사용자의 요구에 맞게 확장하거나, 보안 문제를 직접 수정하는 데 유리합니다.

네트워크 관리자나 보안 전문가들 사이에서 널리 사용되는 도구 입니다. 하지만 이러한, 도구가 악의적인 목적으로 사용될 가능성도 있으모로, 네트워크 보안에 항상 신경쓰는 것이 중요합니다.

 

+ Recent posts