728x90

robot.txt

robots.txt는 웹사이트에서 크롤링하며 정보를 수집하는 검색엔진 크롤러(또는 검색 로봇)가 액세스 하거나 정보 수집을 해도 되는 페이지가 무엇인지, 해서는 안 되는 페이지가 무엇인지 알려주는 역할을 하는 .txt (텍스트) 파일

작성 방법

robots.txt 기본 형식

User-agent: *  (모든 검색봇 차단)
Disallow: /forbidden/

구성요소
1. User-agent : 규칙이 적용되는 크롤러 지정
2. Allow : 크롤링 허용 경로(/ 부터의 상대 경로) ⇒ 일부 검색엔진에서 해석하지 못함
3. Disallow : 크롤링을 제한할 경로(/ 부터의 상대 경로)
4. Sitemap : 사이트맵이 위치한 경로의 전체 URL(https:// 부터 /sitemap.xml 까지의 전체 절대경로 URL)
User-agent 이름
- 구글 : Googlebot
- 네이버 : Yeti
- 다음 : Daum
- 빙 : Bingbot
- 덕덕고 : DuckDuckBot
- - 제외 : AdsBot-Google(직접 명시 해야 함)
업로드 위치 : 웹 서버의 루트 디렉터리
- 웹사이트 주소에서 첫 번째 / 바로 뒤에 업로드

예시

다수 크롤러가, 특정 디렉터리 크롤링 차단
# 대상: 네이버 크롤러 (Yeti) & 덕덕고 크롤러 (DuckDuckBot) & 다음 크롤러(Daum) # 제한 디렉토리: /not-for-naver-and-duckduckgo-and-daum/ 이하 User-agent: Yeti User-agent: DuckDuckBot User-agent: Daum Disallow: /not-for-naver-and-duckduckgo-and-daum/
다수 크롤러가, 제한 크롤러마다 다른 디렉터리 크롤링 차단
# 대상: 네이버 크롤러 (Yeti) # 제한 디렉토리: /not-for-naver/ 이하 # 대상: 덕덕고 크롤러 (DuckDuckBot) # 제한 디렉토리: /not-for-duckduckgo/ 이하 User-agent: Yeti Disallow: /not-for-naver/ User-agent: DuckDuckBot Disallow: /not-for-duckduckgo/

크롤링 제한된 상위 서브 폴더 이하 디렉터리 중, 특정 디렉터리만 따로 크롤링 허용

우선순위 : Allow > Disallow

# 대상: 네이버 크롤러 (Yeti)
# 제한 디렉토리: /not-for-naver/ 이하
# 허용 디렉토리: /not-for-naver/only-allow-here/ 이하

User-agent: Yeti
Disallow: /not-for-naver/
Allow: /not-for-naver/only-allow-here/

특정 형식의 파일 크롤링 금지(*, $ 문자열 사용)
User-agent : Googlebot Disallow : /*****.gif**$**
그 외 참고
robots.txt 파일 만들기 및 제출 | Google 검색 센터 | 문서 | Google Developers

주의사항

다른 사이트에서 백링크를 주고 있는 경우 색인이 생성될 수 있음
- 색인 생성을 원치 않는다면 HTML 소스코드 <head></head> 안에 <meta name=”robots” content=”noindex”> 라인을 추가
robot.txt 는 누구나 열람이 가능한 공개 파일이기 때문에 노출되지 말아야 할 디렉토리 / 페이지 / 비공개 리소스 위치는 포함하지 말아야 함
- 웹사이트에서 접근을 차단하거나 보호해야 할 디렉토리 / 페이지 / 비공개 리소스가 있을 경우 noindex tag 적용, ip 기반 접근을 차단, 또는 비밀번호를 지정하는 등의 차단 방식을 지정하고 robots.txt 파일에는 명시하지 않아야 한다.
Disallow 항목의 디렉터리 URL은 대소문자를 구분함

728x90

저작자표시 비영리 변경금지

robot.txt 파일 설정하기

robot.txt

작성 방법

예시

주의사항

티스토리툴바