728x90
반응형
robot.txt
- robots.txt는 웹사이트에서 크롤링하며 정보를 수집하는 검색엔진 크롤러(또는 검색 로봇)가 액세스 하거나 정보 수집을 해도 되는 페이지가 무엇인지, 해서는 안 되는 페이지가 무엇인지 알려주는 역할을 하는 .txt (텍스트) 파일
작성 방법
- robots.txt 기본 형식
User-agent: * (모든 검색봇 차단)
Disallow: /forbidden/
- 구성요소
- User-agent : 규칙이 적용되는 크롤러 지정
- Allow : 크롤링 허용 경로(/ 부터의 상대 경로) ⇒ 일부 검색엔진에서 해석하지 못함
- Disallow : 크롤링을 제한할 경로(/ 부터의 상대 경로)
- Sitemap : 사이트맵이 위치한 경로의 전체 URL(https:// 부터 /sitemap.xml 까지의 전체 절대경로 URL)
- User-agent 이름
- 구글 : Googlebot
- 네이버 : Yeti
- 다음 : Daum
- 빙 : Bingbot
- 덕덕고 : DuckDuckBot
-
- 제외 : AdsBot-Google(직접 명시 해야 함)
- 업로드 위치 : 웹 서버의 루트 디렉터리
- 웹사이트 주소에서 첫 번째 / 바로 뒤에 업로드
예시
- 다수 크롤러가, 특정 디렉터리 크롤링 차단
- # 대상: 네이버 크롤러 (Yeti) & 덕덕고 크롤러 (DuckDuckBot) & 다음 크롤러(Daum) # 제한 디렉토리: /not-for-naver-and-duckduckgo-and-daum/ 이하 User-agent: Yeti User-agent: DuckDuckBot User-agent: Daum Disallow: /not-for-naver-and-duckduckgo-and-daum/
- 다수 크롤러가, 제한 크롤러마다 다른 디렉터리 크롤링 차단
- # 대상: 네이버 크롤러 (Yeti) # 제한 디렉토리: /not-for-naver/ 이하 # 대상: 덕덕고 크롤러 (DuckDuckBot) # 제한 디렉토리: /not-for-duckduckgo/ 이하 User-agent: Yeti Disallow: /not-for-naver/ User-agent: DuckDuckBot Disallow: /not-for-duckduckgo/
- 크롤링 제한된 상위 서브 폴더 이하 디렉터리 중, 특정 디렉터리만 따로 크롤링 허용
- 우선순위 : Allow > Disallow
# 대상: 네이버 크롤러 (Yeti) # 제한 디렉토리: /not-for-naver/ 이하 # 허용 디렉토리: /not-for-naver/only-allow-here/ 이하 User-agent: Yeti Disallow: /not-for-naver/ Allow: /not-for-naver/only-allow-here/
- 특정 형식의 파일 크롤링 금지(*, $ 문자열 사용)
- User-agent : Googlebot Disallow : /*****.gif**$**
- 그 외 참고
- robots.txt 파일 만들기 및 제출 | Google 검색 센터 | 문서 | Google Developers
주의사항
- 다른 사이트에서 백링크를 주고 있는 경우 색인이 생성될 수 있음
- 색인 생성을 원치 않는다면 HTML 소스코드 <head></head> 안에 <meta name=”robots” content=”noindex”> 라인을 추가
- robot.txt 는 누구나 열람이 가능한 공개 파일이기 때문에 노출되지 말아야 할 디렉토리 / 페이지 / 비공개 리소스 위치는 포함하지 말아야 함
- 웹사이트에서 접근을 차단하거나 보호해야 할 디렉토리 / 페이지 / 비공개 리소스가 있을 경우 noindex tag 적용, ip 기반 접근을 차단, 또는 비밀번호를 지정하는 등의 차단 방식을 지정하고 robots.txt 파일에는 명시하지 않아야 한다.
- Disallow 항목의 디렉터리 URL은 대소문자를 구분함
728x90
반응형