robots.txt

robots.txtは置けますか?
置けます。

以下、part1スレよりの引用

859 :名無しさん@お腹いっぱい。 :04/03/17 07:31

兄やに感謝を込めて

多分robots.txtについて質問する人がでると思うので、兄やからのレスを貼っておきます。

<--以下返信-->
robots.txtをおくことは可能です。たとえば、お客様の作成されたサイト全体でロボットのアクセスを排除したい場合には、public_htmlの中におくのが通例です。(ただし解釈は相手の自動巡回・収集ソフトによります)robots.txt以外でも、htmlや画像ファイルといった、一般に公開する目的のファイル以外を置いていただくことにも制限はございません。今後とも西院ネットワークスをよろしくお願いいたします。
<--返信ここまで-->

865 :名無しさん@お腹いっぱい。 :04/03/17 17:35
>>859
robots.txtはサーバのルートに置かないと効果がないぞ
大丈夫か兄や…
866 :名無しさん@お腹いっぱい。 :04/03/17 19:33

>865
public_htmlにつっこんでるけど動いてる。

前に.htaccessであらゆるロボを弾いてたのにネイバーにだけ拾われて、試しにrobots.txt突っ込んだら反映されたよ。

985 :名無しさん@お腹いっぱい。 :04/03/19 12:37

古い方のスレでrobots.txtについて呟いとくね。

本来の仕様では個人のアカウントの中にあってもrobots.txtは効かないことになってるんだけど、ぐぐるはどこにあってもちゃんと拾うようになってる。

/~a/っていうアカウントの下にbディレクトリとcディレクトリを作ってる時に、aの直下にrobots.txtを入れてロボットのクロールを拒否してあっても、bやcに別の設定(ぐぐるだけ許可とか、はてなアンテナだけ許可とか、全許可とか)を入れておけば、そのディレクトリ以下だけちゃんと拾ってくれる。

手でURI削って遡られたら意味ないから、ダミーindex入れたりする必要はあるかもだけどね

986 :名無しさん@お腹いっぱい。 :04/03/19 12:43
でも>>866はネイバーに効いたって書いてるぞ。つーかネイバーってrobots.txt効くのか。行儀が悪いから.htaccessでdenyするしかないと聞いた記憶があるんだが
987 :名無しさん@お腹いっぱい。 :04/03/19 14:01
ネイバーも読むようになったんなら、日本で廻ってるロボットはほとんど除けられるってことだね。少し前はネイバーは個人の領域にあるrobots.txtは読んでくれなかった
988 :名無しさん@お腹いっぱい。 :04/03/19 14:03
ねいばーってメタタグに記述しても駄目なの?
989 :名無しさん@お腹いっぱい。 :04/03/19 14:08
メタタグはイマイチ信用できない(robotとRobotとROBOTの全部書かないと、ロボットによって効いたり効かなかったりすることがある)
996 :名無しさん@お腹いっぱい。 :04/03/19 20:16
866だけど.htaccessとrobots.txt両方突っ込んでるから、実際どっちが効いてるかは分からない。ただ、.htaccessでネイバー弾きをしてても拾われたのでrobots.txtを入れた。結果を見るとrobots.txtが効いてる様に見えるが、ネイバーは気紛れだからどっちが効いてるのかは分からない。
997 :名無しさん@お腹いっぱい。 :04/03/19 20:53
>990
ttp://enjoykorea.naver.co.jp/
マジレスすると、これ。

向こうのサイトで、何書いてあるのか読めない所なんかを閲覧するには、便利なんだけどね…(´д`;)

998 :名無しさん@お腹いっぱい。 :04/03/20 01:01
ttp://japan.daum.net/
ねいばーもだけどこれも来ない?みんな弾いてる?

以下、part2スレよりの引用

108 :名無しさん@お腹いっぱい。 :04/03/21 01:58
前スレでrobots.txtが自分のアカウント内に入れても動いてるって言ってた人がいたのが気になる。兄やも問い合わせの返信で置けるって言ってたらしいし。それとも特定のロボットだけの話なのかな。
110 :名無しさん@お腹いっぱい。 :04/03/21 02:15

>>108
少なくともはてなアンテナには効いてる。robots.txt入れて、はてなに登録してみるとこのページはロボット拒否してます、って出た

111 :名無しさん@お腹いっぱい。 :04/03/21 02:24

>110
回答サンクス、でもはてなは> robots.txtの置かれている場所については独自に下位のディレクトリも参照しています。とのことらしいからどの鯖でアカウント内に入れても読んでくれるみたい。やっぱり兄やに直接聞いてみた方がいいのかな。

以下、part5スレよりの引用

86 :名無しさん@お腹いっぱい。 :04/11/22 20:11:17
サブドメ取得したらルートにロボテキおけるのかな?
誰か試している人います?
いなけりゃ兄やに直接聞くしかないかなぁ。
88 :名無しさん@お腹いっぱい。 :04/11/23 08:07:56
>>86
当然置ける
というか置けないと考える理由が分からん
89 :名無しさん@お腹いっぱい。 :04/11/23 11:03:10
ルートにロボテキ置くって、public_htmlより上に
置くってこと?サブドメでそれやると、サブドメじゃ
ない場合とどう違うの?
90 :86 :04/11/23 13:17:06

>88
できるんですか。多分できるだろうとは思っていたんですが、なんとなく不安だっただけで、置けないと考える理由があったわけではありません。ほんとになんとなくだったんで…。

通常のhttp://鯖名.saiin.net/~******/とサブドメでhttp://*****.saiin.net/だと、同じようにロボテキ置いても効くロボって変わりますよね。それが微妙に気になっただけなんですが…。

91 :名無しさん@お腹いっぱい。 :04/11/23 19:16:02
http://*****.saiin.net/robots.txt
はまともなロボットなら見てくれるけど、

http://鯖名.saiin.net/~******/robots.txt
の場合見てくれるロボットはまずいない。例外的に
  • はてなアンテナのクローラーは独自にチェックしているらしい
    http://a.hatena.ne.jp/help#robot
  • Googleは登録後90日だけインデックスから削除してくれるらしい
    http://www.google.co.jp/intl/ja/remove.html#exclude_website
92 :名無しさん@お腹いっぱい。 :04/11/23 19:17:45
>>89
public_htmlより上に置いたら誰も(ロボットも)見られないから意味ないよ
94 :名無しさん@お腹いっぱい。 :04/11/24 20:38:58
工エエ
ttp://karen.saiin.net/xxx/robots.txt
って入れてもロボ読んでくれないのか…(;´Д`)
漏れそうやって入れてるけどロボに拾われてないけど
95 :名無しさん@お腹いっぱい。 :04/11/25 00:34:15
>94
私も入れているけど、今まで拾われた事無いよ…。
ググルもネイバもどこも…。
だから効いているんだと思ってた…
96 :名無しさん@お腹いっぱい。 :04/11/25 01:15:47
>94
ウチも全然拾われない。
でも仕組み的にはダメなんだよね?
だれかこの謎を解ける人はいる?
オシエテチャンでスマソ。
97 :名無しさん@お腹いっぱい。 :04/11/25 02:43:43

ウチはrobots.txt入れて、さらに本サイトindex(~xx/index.htm)にメタタグ入れて、同じスペースでウェブリングをやってるんだけど、そっちのindex(~xx/**/index.htm)にはメタタグ入れてない。

本サイトは拾われてないがウェブリングのほうは拾われてる。(最初困ったがウェブリングだからそのほうがいいのかな、と放置)

どうなってるんだろう

98 :名無しさん@お腹いっぱい。 :04/11/25 15:41:01

メタタグも一緒に入れてるならそのせいじゃないの?

robots.txtにロボットのアクセスがあったかどうか調べれば分かると思うけど、西院って生ログ取れたっけ?

99 :名無しさん@お腹いっぱい。 :04/11/25 22:32:23
生ログはとれない。
とれたら最強って誰かがいっていたが