落ち穂拾い(その1)

前回までで、Webサーバの最低限の基本機能、 HTMLや画像を送ることができるようになりました。

最初に作ったのは、TCPサーバでした。 TCPを使うことで、サーバとクライアントの間でバイト単位でデータをやりとりすることができるようになりました。

TCPは、このように、単なるバイト列を送るための仕組みなので、 Webサーバに限らず、多くのアプリケーションが使用しています。たとえばメールクライアントとメールサーバのやり取りなども、通常はTCPの上に構築されたプロトコル(SMTPとかPOP3とかIMAP4とか)を使用しています。

Webサーバがページを配信するのに使うプロトコルは、 HTTP(HyperText Transfer Protocol)です。「プロトコル」というのは要するに「取り決め」のことで、全然別の会社や団体が作っているWebサーバとブラウザが通信できるのは、双方がこの取り決めに従っているからです。前回Webサーバを作ったとき、ApacheやFirefoxの動きを見ながらリクエストヘッダやレスポンスヘッダを参照したり出力したりしましたが、あれを規定しているのがプロトコルです。インターネットの世界では、プロトコルを文書化したものはRFC (Request For Comments)としてまとめられています。

HTTP――はいぱあてきすととらんすふぁーぷろとこる、などと言うとなにやらすごいもののように思えるかもしれませんが、通常のWebページの閲覧で使う範囲であれば、前回実際に作ってみたように、それほどたいしたものでもありません。

とはいえ前回の実装はあまりに手抜き過ぎです。たとえばリクエストされたファイルがなかった場合、正しい対応は皆さんおなじみ「404 Not Found」を返すことですが、前回作ったWebサーバはそのスレッドが例外を出して死にます。これではあんまりだ、ということで、今回はそういった細かい対応を行います。

404 Not Found

例によって、このページで作った Client01.javaでローカルのApacheを叩いて反応を見てみます。念のためClient01.javaを再掲のうえ、クライアントからサーバに送付するデータ(client_send.txt)も掲載します。

client_send.txtの1行目で、存在しないファイル(xxxx.html)を指定しています。

このリクエストでApacheを叩いてみたところ、私の環境では以下のレスポンスが返りました。

1行目で、HTTPステータスコードとして404が指定されています。以前確認した「200」は成功を表すステータスコードでしたが、(時々ブラウザに表示されるおなじみの) 404はファイルが見つからないときのステータスコードであるわけです。

見る限り、レスポンスヘッダはだいたい200のときと同じで、 8行目の空行の後、9行目からは、 404のときにブラウザに表示するHTMLが入っています。

なお、ここでは表現できていませんが、8行目までは改行コードがCR+LF、 9行目以降はLFになっていました。レスポンスヘッダまでは改行がCR+LFであることが HTTPの規格で決められていますが、ボディについてはそれこそ画像ならバイナリが入っていたりするわけで、テキストであっても、改行コードの保証はありません。ここはつまり、事前に用意した404用の HTMLファイルをそのまま返せばよいということでしょう。

それでは実装します。まずはmain()メソッドのあるMain.javaですが、これは前回のものと同じです。

また、404に対応するための修正ではありませんが、前回作ったいくつかのユーティリティメソッドをUtil.javaに切り出しました。

基本的な構造は前回と変わりませんが、28～33行目のtry catchにて、 FileNotFoundExceptionに対する例外処理をしています。また、レスポンスを返す部分を、SendResponseクラスに分離しました。

共通部分が結構あってプログラムとしては汚いのですが、今は気にしないことにします。

32行目からのコードで、errorDocumentRoot(これはSenderThread.javaの中で "C:\webserver\error_document"と定義されています。環境に合わせてフォルダを作成してください)以下の404.htmlという htmlファイルを読み出して返すようにしています。

404.htmlも各自用意してください。私は、シンプルに以下の内容のファイルを配置しました。

上記プログラムを動かし、404.htmlを配置してFirefoxで存在しないファイル (xxxx.html)を指定したところ、ちゃんとエラーページが出ました。

ただし、IEの場合、以下のような画面になることがあります。

これは、Internet Explorerは、サーバの返したエラーページのサイズが 512バイト以下のとき、ブラウザ側で用意したエラーページを表示するという仕様になっているためです。Wikipediaの記事(2013年8月14日時点)を見るとIE6以前の話のように読めますが、今、うちのIE9で試してもこの仕様になっていました。

IEでエラーページが出ることを試したい場合は、ファイルを大きくする等工夫してください。

ディレクトリを指定した場合――リダイレクト

たとえば私のWebサイトといえば http://kmaebashi.comであり、ブラウザにそのように入力すればトップページが見えます。

また、この「本当の基礎からのWebアプリケーション入門」を見るときには http://kmaebashi.com/programmer/webserver/で http://kmaebashi.com/programmer/webserver/index.htmlが見えます。

これは、ファイル名まで指定しなかったときにはWebサーバ側で index.htmlというファイル(どんなファイル名かはサーバの設定による)を返してくれるからです――と言えれば作るのも簡単なのですが、ここは実際はもうちょっと複雑です。見ていきましょう。

ところで、ここまでWebサーバの挙動を見るときには、 Client01.javaにてApache等を叩いていました。しかし、いちいちclient_send.txtをいじるのも面倒ですし、「HTTPを生で見る」という目的はそろそろ達したと思いますので、ここらで便利なツールに頼ります。私は自分のブラウザ(Firefox)に HttpFox というアドオンを入れました。

これを使うと、HTTPのリクエストやレスポンスを確認できます (下がキャプチャ。クリックで拡大)^※1。

アドオンでなく、プロキシとして通信に割り込む方式のツールとして Fiddlerあたりも有名です。今の目的ではこれでもよいですが、この手のツールだとSSLの通信を見ることができません( 途中経路が暗号化されているのがSSLなのだから当たり前)。

では、kmaebashi.com以下のページをいくつか参照し、 HttpFoxでその動きを見ていきます。

まず、トップページを参照する場合、ブラウザに http://kmaebashi.comと入力しても、末尾にスラッシュをつけて http://kmaebashi.com/と入力しても、ブラウザが投げるリクエストは同じです。これに対してサーバはトップに存在するindex.htmlを返しています。

問題は、「http://kmaebashi.com/programmer/webserver」のように、下位のディレクトリを末尾のスラッシュをつけずに参照したときです。サーバはステータスコードとして200を返すのではなく、「301 Moved Permanently」というステータスを返しています。

ブラウザに入力したURL	リクエスト・ライン	ステータス・ライン
http://kmaebashi.com	GET / HTTP/1.1	HTTP/1.1 200 OK
http://kmaebashi.com/	GET / HTTP/1.1	HTTP/1.1 200 OK
http://kmaebashi.com/programmer/webserver	GET /programmer/webserver HTTP/1.1	HTTP/1.1 301 Moved Permanently
http://kmaebashi.com/programmer/webserver	GET /programmer/webserver/ HTTP/1.1	HTTP/1.1 200 OK

Moved Permanentlyという言葉からわかるように、ステータスコード301は、サーバからの「ページの本体は(今は)こちらにあるからこっちを見ろ」という指示を意味します。このような指示を リダイレクトと言います。以下にHttpFoxの画面を載せます(クリックで拡大)が、ブラウザは、301を受け取った後、http://kmaebashi.com/programmer/webserver/ というスラッシュをつけたURLを取りに行っていることがわかります。

上の画像にも写っていますが、レスポンスのLocationヘッダが、ブラウザが参照すべき正しいURLを示しています。

念のため、Client01.javaを使って生のレスポンスを取得してみました。

考えてみれば、「http://kmaebashi.com/programmer/webserver」というURLからは、末尾のwebserverがファイル名であるのかディレクトリ名であるのかが判定できません (拡張子がついていませんが、特にUNIXでは、ファイルに拡張子は必須ではありません)。そこでWebサーバは、「ファイルはないけどディレクトリならあるのでこっちを見ろ」という指示を返しているわけです^※2。

URLの末尾のスラッシュは要るの? 要らないの?

インターネットにおける古典的なFAQに、「URLの末尾のスラッシュは要るの? 要らないの?」というものがあります。

ここまで読んできた方ならお分かりのように、この質問に対する回答は、

ホストのトップのページであれば、あってもなくても同じ。
ディレクトリの場合は、スラッシュをつけないと、リダイレクトが発生してリクエストが2回発生する(よってつけるのが望ましい)。

まず、35行目からのif文で、パスの末尾がスラッシュのときはその後ろにindex.htmlを付け足しています。これで、スラッシュつきでディレクトリが指定された場合に対応できます。

スラッシュなしでディレクトリが指定された場合の対応は、 FileNotFoundExceptionのハンドラの中に書いています(45行目から)。せっかくのJava7なので、java.nio.fileパッケージを使ってパスがディレクトリであることを判定しています。

ディレクトリだった場合、301を返すわけですが、その際、 Locationヘッダを返さなければなりません。 Locationヘッダで返すのはhttp://から始まる完全なURLですから、サーバ名が必要です。ここでは、8行目でSERVER_NAMEに定義しています (Apacheなら、httpd.confのServerNameディレクティブで設定します)。また、バーチャルホストの機能があるわけでもないので特に役には立ちませんが、 Hostヘッダがあるときはそちらを使うようにしています。

51行目でSendResponseクラスのSendMovePermanentlyResponse()を呼び出しています。 SendResponse.javaはこちらです。

上で、kmaebsahi.comをClient01.javaで叩いて得たレスポンスでは、 301の場合もレスポンスボディを返しています。これについては、 RFC2616には、「レスポンスのエンティティは新しい URI へのハイパーリンクを持った短いハイパーテキストの注釈を含むべきである。」と記載されているので本来返すべきなのでしょうが、「べきである」レベルの規定なので今のところ放置しています。

その他、細かい修正として、レスポンスの出力およびレスポンスを返す祭のファイルの読み込みについて、 BufferedOutputStream/BufferedInputStreamをかませてバッファリングを行うようにしました。以前は「これ本当にローカルで動いてるのかよ」レベルの遅さでしたが、これによりページの表示は圧倒的に高速化できました。

残作業

「落ち穂拾い」と称して足りない機能を追加しましたが、まだ足りない機能はあります。たとえば現状、ファイル名やディレクトリ名に空白が入ると、ブラウザからはURLエンコード (パーセントエンコード)されたパスが来ますがサーバが対応していないので表示できません。また、「../」を含むパスが来ると、上位ディレクトリが参照できてしまうので、ドキュメントルート外のファイルが参照できてしまいます。これはディレクトリトラバーサル というセキュリティホールです。

次回以降、上記のような問題を直した上で、次はPOSTを実装し、 Webアプリケーションが作れるようにしていきたいと思います。

落ち穂拾い(その1)

前回までのまとめ

404 Not Found

ディレクトリを指定した場合――リダイレクト

URLの末尾のスラッシュは要るの? 要らないの?

残作業