검색로봇으로부터 테터를 지킵시다~!Category :: 2009ed/펌질 |
지난 포스트에 말을 했듯, 야후봇의 들이대기에 좀 신경이 쓰였습니다.
그래서 robots.txt를 작성하려고 여기저기 검색을 하다보니, 의외로 검색되는 게 들쑥날쑥하고, 애매하기도 해서 나름대로 조금 정리를 해서 올려봅니다.
검색로봇의 접근을 막는 방법입니다.
로봇을 배제하겠다라는 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소(서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다.
robots.txt를 서브디렉토리에 놓는 경우 효력이 없다는 사실에 주의하세요.
예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다.
로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐이고, 로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용은 달라집니다.
(1) 모든 로봇을 배제하고 싶을 때
Disallow: /
(2) 모든 로봇을 허용하고 싶을 때
이 경우에는 “robots.txt”를 작성할 필요가 없으나, 굳이 작성을 하자면 다음과 같습니다. (Ex1과 비교했을 때 “/”가 빠져 있습니다.)
Disallow:
(3) 모든 로봇에게 서버의 일부분만을 제한하고 싶을 때
Disallow: /my_photo/
Disallow: /my_diary/
이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.
(4) 특정 로봇만을 배제하고 싶을 때
Disallow: /
위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다.
(5) 특정 로봇에게만 접근을 허용하고 싶을 때
Disallow:
User-agent: *
Disallow: /
이 경우 해당 검색로봇만이 웹문서를 수집해갈 수 있습니다.
ECT1)메타테그에 정보를 넣는 방법도 있습니다.
테터 index.php에 넣어야 하는지, 스킨의 skin.html에 넣어야 하는지는 잘 모르겠습니다. 세가지의 정확한 차이는 잘 모르겠네요.;;;;
ETC2)검색로봇의 이름
네이버 cowbot
구글 Googlebot
msn로봇 MSNBot
야후봇 Slurp
엠파스봇 empas
첫눈봇 1Noonbot 1.0
ps.국내 검색싸이트들이 로봇 배제에 대한 규준을 제발 좀 지켜주길 기대해봅니다.
-
소금이의 행복한 하루 :: 야후봇, 너무 심각해... ㅡㅡ;
이 글은 라온수카이님의 포스트를 트랙백한 글입니다. 오늘 큰맘먹고 봇 검색금지 파일인 robots파일을 설치했다. 카운터 숫자가 좀 신경쓰이긴 하지만 그것보단 봇의 행패가 너무 심하기 때문?
-
::Not Much... U TOO??:: :: 로봇 싫어!!
대체 왜 이러는겨 -_-; 요새 로봇들이 활기를 치고 다닌다.. 어제는 기여코 트래픽 다운되는 현상까지.. 일요일은 로봇이 2000번이나 넘게 긁어 가다니 OTL 예전엔 야후봇이 90%이상이더니 최근엔 b







안녕하세요. 좋은 정보 감사드립니다. :)
바로 제 블로그에도 적용했습니다. 야후봇의 들이대기...는 무섭더군요 ^^;;
좋은 주말 되시길~
도움이 되셨다니 감사합니다. ^^;;
봇중에서도 야후봇은 엄청나더군요;
저도 최근엔 야후봇때문에 많이 시달려요. ㅜ,.ㅜ
사람도 아닌 야후로봇이 계속 오더군요
늦게나마 봤지만
도움이 되었네요 감사합니다^^
도움이 되셨다니 다행이네요. ^^
저는 왜 아무런 봇도 오지 않는 걸까요? ㅋㅋ trace watch로 봐도 로봇 방문이 0이에요~ 무슨 조화일까요.
"소외됨"을 자랑으로 생각하시는 분이군요. ㅎ
우헤헤헤~~~(장난모드 발동.;;)
아잉, 그게 아니고 정말 궁금해서 여쭌 거여요~~~
아, 알았다. 제가 php 버전이 아니라 java 버전으로 깔아서 그런 거였네요~~~ 이론
ㅎㅎㅎ
결자해지라는 말을 이런 때 쓰는 거죠... ㅎ