プログラミング言語を作る/正規表現ライブラリ鬼車の搭載

またえらく長いこと放置しておりましてすみません。今回実施した修正は以下の通りです。

私もたまにPerlを使うことがありますが、私がPerlを使ってすることといえばほとんどテキストファイルの処理です。今回の修正で、crowbar もそういう用途にそこそこ使えるようになったと思うので、それなりに実用性が出てきたのではないでしょうか ――ってそれはほとんど鬼車のおかげなんですが。

「鬼車」というのは、小迫さんが開発された正規表現ライブラリです。

私はといえば、正規表現はまるっきり素人なのですが(もちろん普通に grepとかは使っていますが)、鬼車を組み込むことで、簡単にcrowbarに正規表現を実装できました。

ここまでできれば、そろそろcrowbarも、その命名の由来の通り、「Perlのようなもの」と言っても怒られない程度にはなったかな、と思うのですが――ただ、今のPerlは、 (ライブラリ込みで)ずいぶん色々な用途に使われているので、まだちょっと僭越ですかねえ。

2006/1/7追記：
以下の不具合があったので、取り急ぎver.0.4.01を上げます。毎度初歩的なポカが多くすみません。

細かいこと

例外処理(続き)

crowbar ver.0.3.02では、以下のような例外処理機能を実装していました。

Javaなどでは例外はクラスで提供されており、 catch節でクラスを指定することで、その例外クラス(サブクラスを含む)の例外だけを選択的にcatch することができます。この方法は、これはこれで確かに便利ではありますが、「例外Aと例外Bの場合はこういう処理をしたい」という時、同じようなcatch節を複数書かなければならないことがあります。これは、「同じことを複数の個所に書いてはいけない」というコーディング上の大原則に反します。

もちろん、例外Aと例外Bに共通のスーパークラスがいれば、そのスーパークラスでcatchすることはできますが、例外の階層は例外クラスを提供する側の都合で決められますから、例外を使う側の都合とは往々にしてずれるものです。また、「例外Aと例外Bの場合はこういう処理をしたい」というように、単にOR条件の記述をしたいだけなら、 catch節でクラスをカンマで区切って指定できるようにするなどの手も考えられますが、「例外Aと例外Bの場合はこういう処理をしたい、ただし、例外A, B, Cのすべてにおいて、この処理をしたい」というようなケースもありますから、結局、例外の種類は、アプリケーション側で通常のif文で振り分けてもらうのがよいのではと考えました。ただ、この方法では、想定外の例外が発生に備え、 if文のelse節で例外を再度throwする必要がありますが、これをいかにも書き忘れそうだ、という欠点はありますね。

というわけで、crowbarで例外を使う場合は、以下のような記述になります。

この例では、算術例外(現状ではゼロ除算しかありません)の場合だけ「? /0 Error.」というメッセージ(このメッセージの意味がわからない人はそのへんの年寄りに聞いてみよう)を表示し、それ以外の例外はそのまま投げ直しています。

例外の種類は、例外オブジェクトのchild_ofメソッドにより判定しています。 child_ofメソッドには「ArithmeticException」を渡していますが、これは、「例外クラス」を表現するオブジェクトへの参照を格納したグローバル変数です。なので、関数内で同じようなことを書こうと思ったら、 global文で宣言しておく必要があります ――このへんの仕様はちょっと使いにくいかも。

crowbarは、処理系が投げるものだけで、現在50種類以上の例外がありますが(今までcrb_runtime_error() で出していたメッセージごとにすべて別の例外を割り当てたため。こんなに分ける必要はなかったかも)、それらは下図のような階層構造を持っています。

すべての例外は、RootExceptionの子ですが、そのうちバグがなければ発生し得ない(と私が考える)ものは BugExceptionのカテゴリに入れています。バグがなくても、利用者側ユーザの不手際などで発生し得るものはRuntimeExceptionです。 BugExceptionは、 crowbarプログラムとしてはたぶんどうしようもないので、たいていのプログラムでは、catchすべきではありません。

引数として「親クラス」を渡してcreate_exception_class()を呼び出すと、「例外クラス」のオブジェクトが生成されます。そして、その「例外クラスのオブジェクト」のcreate() メソッドを呼び出すことで、その例外クラスに属する例外が生成されます。

ビルトインスクリプト

さて、上記のcreate_exception_class()関数を使うことで、「例外クラス」らしきものを作ることができるわけですが、 0.3までのcrowbarには、 crowbarで記述されたライブラリを読み込む機能がありません。では、処理系として、 create_exception_class()関数をどのように提供すればよいでしょうか。

crowbarで書けば簡潔に書けることをCでゴリゴリ書くのは、 (何より私が)面倒なので嫌です。といって、実行時に別ファイルを読み込むようにすると、 crowbarが実行形式単独で動作しなくなります。

実行形式単独で動作しないと何が困るのか、インストールが大変だというならちゃんとインストーラを作ればいいじゃないか、という声も聞こえてきそうですが、 crowbarのようなスクリプト言語は、「ログファイルを見やすい形に整形したい」といった用途で使われることが多いものです (Perlは実際そのような用途向けに作成された言語ですし)。 crowbarも、ちょうど今回正規表現ライブラリを積んだことで、そういう用途に使えるものになりつつあるでしょう。そして、プログラマなんて稼業をやっていると、たとえば客先で作業していてちょっとログを整形したい、といったことも多いのですが、そういう場合、客先のマシンに好き勝手なソフトをインストールできるとは限りません。しかし、実行形式単独で動くようにしておけば、 USBメモリ^※1 なりCD-Rなりにcrowbarの実行形式を入れておき、ちょっとカレントディレクトリに放りこんで、作業が終わったら消して帰るという方法も使えます(お客さんが許せば)。それを考えると、crowbarにとって、「実行形式単独で動く」というのは大きなメリットであり、これを崩したくはありません (だからいまだにエラーメッセージもソース埋め込みにしているわけです)。

Cで書くのも嫌だがcrowbarで書かれた外部ファイルを読むのも嫌だ、ということで、今回とった方法は、「crowbarで書かれたソースを実行形式中に埋め込む」というものです。言葉でぐだぐだ説明するよりブツを見た方が早いでしょう。これです→(builtin.cのソース)。

このように、 crowbarのソースを文字列リテラルの形でCプログラム中に埋め込めば、「標準ライブラリ」的なものをcrowbarで書きつつ、 crowbarを実行形式単体で動作させることができるわけです。この方法でcrowbarに埋め込まれたcrowbarスクリプトのことを、「ビルトインスクリプト」と呼ぶことにしようと思います。

文字列リテラルとして埋め込まれたcrowbarソースは、ユーザの書いたプログラムをコンパイルする前にコンパイルされます。そのために今回、CRB_compile_string()という公開関数を追加しました。この関数は文字列の配列を引数に取り、それをcrowbarソースとしてコンパイルします。配列の最後の要素はNULLでなければなりません。

crowbarの場合、コンパイルはyaccとlexの共同作業で行ないます。そして、ソースを最初に読み込むのはlex(が生成したプログラム)です。 lex(が生成したプログラム)は、デフォルトの状態では、グローバル変数yyinに指定されたファイルポインタからソースを読み込もうとします。今回はこれでは困るので、lexの入力元を切り替える必要があるわけですが、それにはYY_INPUTマクロを使用します(このマクロはO'Reillyの Lex&Yacc本に記述がないので、あまり標準的ではないのかもしれませんが、 flexでは使えています)。

こんな感じで自分の入力ルーチンを定義します。入力ルーチンは、バッファとバッファサイズを受け取り(fgets()流)、バッファに文字列を詰め込んで、詰め込んだ文字数を返します。バッファは'\0'で終端させる必要はありません。

my_yyinput()は、現在のインタプリタの「入力モード」を参照し、 CRB_FILE_INPUT_MODEであればファイルから、 CRB_STRING_INPUT_MODEであれば文字列からの入力を行ないます。

ところで、このようにしてcrowbarのソースをCプログラム中に埋め込むことはできるわけですが、crowbarが埋め込まれたCソース(今回はbuiltin.c)はどのようにして作成すればよいでしょうか。直接手で書くのは面倒ですし、crowbarプログラムのテストもできません。こういうものは当然、crowbarソースから自動生成したいものです。

というわけで今回その自動生成プログラムをcrowbarで書きました (ソースはこちら→conv.crb)。いやそのcrowbarのmakeを行なおうという環境なら当然 Cコンパイラはあるわけですから、別にCで書いても構わなかったのでしょうが、この手のスクリプト言語を作っていながら、こういう所で使わないのでは、言語自体の存在意義を疑われそうでもありますし。

とはいうものの、この変換はcrowbarのmakeの途中で必要になります。当たり前ですが、crowbarをmakeしている最中にcrowbarは使えませんので、ビルトインスクリプトを組み込まない状態の「minicrowbar」という実行形式を先に生成し、 conv.crbはminicrowbarで実行しています。いやだからこんな凝ったことをやるくらいならこの程度の変換プログラム Cで書いた方が早いじゃないか、とも思うわけですが、どっちかというとこういうのを「やってみたかった」わけでして(^^;

なお、conv.crbが正規表現を使っていないのは、これを書いた時点でまだ実装されていなかったためで、深い意味はありません。

さらに細かいこと

conv.crbを書くにあたりいくつか機能が必要になったので、追加しました(泥縄)。

ワイド文字

マルチバイト文字列とワイド文字列

えー、このあたりのことについては、用語の使い方など色々難しいようですし、私自身そんなに詳しいわけではないので、以下の説明に間違い等ありましたらツッコミよろしくお願いいたします。 >識者の方

と、予防線を張ったところで、まずは用語の説明から入ります。

ver.0.3までのcrowbarは、文字列をchar*で保持していました。ただし、日本語を扱うと、EUCでもSJISでも、漢字はたいてい2バイト消費します。このような保持形式の文字列を、マルチバイト文字列と呼びます。

たとえば、crowbarの文字列には length()とかsubstr()といったメソッドがありますが、このようなメソッドの実装においてはマルチバイト文字列は不便です。 crowbar ver.0.3では単純にバイト単位で処理していたため、 "abc漢字".length()は7になってしまいますし、 "abc漢字".substr(3, 1)と書くと「漢」の前半部だけを切り取ってしまいます。これを表示すると文字化けなどの現象が起きることになるでしょう。

そこで、1文字あたり、漢字を充分に含むことができる大きめの型を割り当てて、すべての文字をひとつの整数値で扱えるようにしようという発想が出てきます。これがワイド文字(列)です。ワイド文字では、ひとつの文字は、wchar_t型で表現されます。 gccではsizeof(wchar_t)は4なので(VC++では2らしい)、「a」のようなASCII文字でも4バイト食います。よって、メモリ効率は悪いのですが、str[i]のように書けば、 ASCIIと漢字がごっちゃになったような文字列でも、常にi文字目が参照できる、という利点があるわけです。

マルチバイト文字にせよワイド文字にせよ、特定の文字コード系に限定されたものではありませんが、ワイド文字の文字コードとしては、現在のところUNICODEが使われることが多いようです。

crowbar ver.0.4からは、文字列の内部表現形式をワイド文字列としました。

なお、ここで「文字列」と言っているのは、crowbarの文字列型のことであり、変数名などの識別子は含まれません (よって変数名に日本語を使うことはできません)。

また、マルチバイト文字列とワイド文字列の相互変換のタイミングは、以下のようになっています。

これらの相互変換には、mbrtowc(), wcrtomb()といった関数を使用しています。これらの関数は ISO C95から標準化された関数群です。デフォルトでは、マルチバイト文字列は、WindowsではShift-JIS, LinuxではEUCであり、ワイド文字列の方はどちらもUNICODEになるようです。

ところで、「デフォルトでは…」と書いていますが、こういった言語設定(ロケール)をデフォルトに設定するには「setlocale(LC_CTYPE, "")」という設定が必要です。 crowbarでは、この設定は、main()関数で行なっています。

これらの関数を実際の使用法は、wchar.cの CRB_mbstowcs(), CRB_wcstombs()をそれぞれ参照してください。

――と、こう書くと、何の苦もなくSJIS/EUCとUNICODEの相互変換ができそうですが、実際には何かと苦労しました。

まず、Windowsの場合、mbrtowc()を使用するにはコンパイル時に-lmsvcp60 の指定が必要です(MinGWの場合)。これはまあ指定すればよいとして、いろいろ試したのですが mbsrtowcs()は結局動きませんでした。また、環境がないため試していませんが、おそらくこれらの関数は Windows9x系では動作しないと思われます。

今のところワイド文字列はcrowbarの中でしか使っていない (外部とのやりとりは、すべてマルチバイト文字列で行なっている) ことを考えれば、ワイド文字/マルチバイト文字の変換に関しては、独自でやった方が堅いかもしれませんねえ…

Shift-JISのソースを読めるようにする

細かいことですが、ver.0.3までのcrowbarでは、 Shift-JISの環境において、文字列リテラル中に「表」などの文字を含めるとエラーになる、という問題がありました。これは、Shift-JISでは「表」の2バイト目が0x5Cであり、 ASCIIコードの「\」と同じであること、およびcrowbarの文字列リテラル中では「\」は特別な意味をもつことが原因です。

そこで、Shift-JISファイルでも読み込めるよう、 crowbar.lに以下の修正を加えました。

Shift-JISの漢字は、1バイト目が0x81～0x9eまたは0xe0～0xef、 2バイト目が0x40-0x7eまたは0x80～0xfcまでと定められています( このページがわかりやすいでしょう) そこで、単純にその並びを文字列リテラルの一部として解釈するようにしたわけです。

こういう修正を加えて、じゃあEUCの時に問題が起きないのか、という懸念もあるかもしれませんが、 Shift-JISの1バイト目である0x81～0x9eまたは0xe0～0xefは、 EUCの2バイト目とはかぶっていないので大丈夫でしょう。たぶん (もしこれがかぶっていると、文字列リテラルの終端や「\」を見逃す可能性がある)。

ということで、crowbarソース中の「0x5C問題」はどうやら解決したのですが、 Cソース中の0x5C問題はどうしたもんでしょうねえ。 crowbarでは日本語エラーメッセージをソース中に埋め込んでおり、 gccにはここで説明したのと同じ問題があるため、現在はエラーメッセージ中に該当する文字を含まないようにすることでしのいでいます。今までは「ソ」がだめなので「メソッド」を「method」と書く、ということをしていましたが、今回正規表現を導入したところ、「表」がだめなのでエラーメッセージ中では「regular expression」と英語表記しています。他の部分は日本語なので、どうにも変です。

gccだけに対応すればよいのなら、「正規表\現」と書くことで回避できますが (こう書くことで\がふたつ並ぶことになり、ひとつの\として解釈される)、このような問題のないコンパイラを使う人もいるでしょうし。

正規表現

どの階層で実現するか?

正規表現とは何か…というようなことは、このページを読んでいる人には説明不要と思われますので省略します (既にlexで正規表現を使っているわけですし)。

プログラミング言語で正規表現を扱う場合、言語そのものを、どの程度まで正規表現に特化させるか、ということが問題になってきます。

Perlあたりは、言語仕様そのものが、かなり正規表現に特化しています。 s///とかm///とか、s///gとか、=~とか、なんのこっちゃと思います。 AWKレベルでテキスト処理に特化した言語ならこれでよいのかもしれませんが、 crowbarをこうしようとは思いません。

逆にJavaやPHPでは、言語としては特に正規表現をサポートしません。正規表現はライブラリで提供されます。それでいいじゃん、と思う人もいるかもしれませんが、その場合、正規表現は単なる文字列で表現されることになり、正規表現で特別な意味を持つ文字(「\」など)は、文字列リテラル中でもやはり特別な意味を持つため、たとえばJavaで\にマッチする正規表現を書くためには、「\\\\」と書く必要があります。これはかなりまぬけです。

この問題を解決するためかどうかは知りませんが、 Pythonでは、raw stringという概念を導入しています。 Pythonでは、

のように文字列リテラルの前にrを付けて書くと、この文字列の中では\が特別な意味を持たなくなるのです。これなら、「\」にマッチする正規表現は、「\\」で済みます。

しかし、「\」が特別な意味を持たないとするなら、「"」をリテラル中に埋め込まなければならない時はどうするんだろう、という疑問が出てくることでしょう。 Pythonのリファレンスマニュアルによれば、

また、正規表現は、効率よく解釈するためには事前にコンパイルする必要があります。しかし、これを利用者側(crowbarプログラマ)が毎回やるのは面倒です。たいていのプログラムでは、正規表現を実行時に組み立てるということはないでしょうから、ソースをコンパイルする時に、同時に正規表現のコンパイルも済ませて欲しいものです。そうなると、やはり言語として「正規表現のリテラル」を表現する書式が必要になります。

Rubyの場合、 %!文字列!と書くことで、 Pythonのraw stringと同様のことが実現できるようです。この「!」は、任意の文字を使用できます。また、%r!正規表現!で正規表現のリテラルを表現できます。

ただ、crowbarでは%は剰余の演算子として既に使用されており、「hoge %r + 3 」と書いたとき、%以降が「+ 3」という正規表現と解釈されても困ります。

そこでcrowbarでは、「%%r"正規表現"」という書式を採用しました。正規表現中に"を使いたいこともあるでしょうから、 %%rの後ろには任意の文字を指定できます。つまり、「%%r"hoge"」と書いても、「%%r!hoge!」と書いても、同じ意味になります。

――でも、いざ書いてみると、これはこれで美しくないような気も…

公開関数

ということで正規表現がリテラルで表現できるようになったので、以下の公開関数を用意しました。

これらの関数の仕様は、おおむねPHPのそれに似ていると思います。

なお、鬼車には「名前付き捕獲式」という機能があり、これを使うと、後方参照(括弧で囲んだ部分を、後方で\1, \2のような形式で参照する機能)について、 \1, \2のような番号でなく、名前で参照することができます。便利な機能だとは思いますが、現状のcrowbarのreg_replace()では対応していません。また、正規表現パターン文法定義は、デフォルトのRubyではなく、 Perlにしてあります(私自身はどう違うのかすらわかっていませんが、 Perlの方がユーザが多いかな、という程度の理由によります)。

鬼車のインストール

ということでVer.0.4から、crowbarのコンパイルには鬼車が必須となりました。もちろんスタティックリンクすれば「実行形式単独で実行できる」という crowbarの利点は損われません。

鬼車のインストール方法は、公式ページを参照すれば、 UNIX、cygwin環境、およびWindows上のVC++環境についてはわかると思います。ただしこの企画では以前からMinGWを使っているわけで、 configureを実行できないMinGWユーザ向けに、うちのcygwin環境で作成したMakefileを置いておきます (ここ)。このMakefileは鬼車のver.3.9.1に対応しており、これをoniguruma直下に置いてmakeを実行するだけで、 libonig.aが生成されるはずです。

コンパイルできたら、UNIXの場合はmake installすればよいでしょう。ヘッダファイルがデフォルトで/usr/local/includeにインストールされるため、 -Iを追加する必要があります。

Windowsの場合、(cygwinが入っていなければ)installコマンドがなくて make installは動かないので、 libonig.aと関連ヘッダファイルをしかるべき場所に置いてやることになります。私の場合、MinGWを使っていますから、 libonig.aをC:\MinGW\libに、 onigposix.h, oniggnu.h, oniguruma.hをC:\MinGW\includeにそれぞれ放り込んでしまいました。

また、UNIX, Windowsともに、鬼車をリンクするために-lonigの指定が必要です。

鬼車を使う

鬼車のインストールができたところで、実際に鬼車を使ってネイティブ関数を作っていきます。

――が、正直、私には、鬼車の付属ドキュメントを読んでもいま5つくらい使い方がわかりませんでした。まあ私に正規表現一般の知識がないせいなんでしょうけど。

今回は、鬼車のサンプルソースsimple.cを参考に crowbarのregexp.cを書きました。以下、その説明です。

ところで、それではさっそくregexp.cを読んでみよう、と思った人向けに補足説明ですが、 match, replace, split共に、「match_crb_if()」のように、「crb_if」と付けられた関数があります。これは、処理が複雑なので関数の階層を分けているわけですが、「この階層ではCRB_xxxという型を受け渡している」という意味で、「CRB階層のインタフェース」の意味でcrb_ifと付けています。これより下の階層だと、鬼車の型を使っているわけです。

もうちょっとよい名前はなかったものかと自分でも思いますが…

鬼車向けのエンコーディング

さて、上の方で「UTF16_BEとはなにものか、という点については後述します。」と書きましたので、ここではそれを説明します。

ver.0.4では、crowbarの文字列の内部表現はwchar_tの配列になりました。では鬼車はwchar_t*を引数として受け取ってくれるかというと、これが受け取ってくれません。鬼車では、文字列は基本的にunsigned char *です。じゃあキャストして渡せばいいのか、と思うかもしれませんが、そもそもwchar_tの配列といっても、 1バイト単位のデータ形式までは規定されていないのです。だいたいWindows(VC++)とgccではwchar_tのサイズ自体違うわけですし、 CPUによってはバイトオーダも違います。

そこで、UNICODE^※2 を「バイトの並び」に変換する方式として、UTF-8, UTF-16といった方式が定められています。 UTF-16はバイトオーダによりUTF-16BE(ビッグエンディアン)と UTF-16LE(リトルエンディアン)の2種類があります。このあたりのことは、以下のページが参考になるでしょう。

crowbarでは、鬼車に渡す直前に、正規表現文字列や対象とする文字列を、すべてUTF-16BEに変換しています。その変換関数が、以下のencode_utf16_be()です。

見ての通り、単純にwchar_tの上位 8ビットと下位8ビットを順に詰めているだけなので、 UCS-4にもサロゲートペアにも対応していません。でもそもそも入力がShift-JISやEUCしか対象にしていないのなら、これで充分かとも思いますが。

なぜ正規表現関連の関数がグローバルなのか

たとえばPythonでは、matchとかsplitとかsub(置換(substitute)。replaceと同じ) といった関数は、RegexpObjectのメソッドとして実装されています。それに対し、crowbarでは、 reg_match()とかreg_split()とかreg_replace()とかは単なる関数です。おかげでreg_というプレフィクスを付ける必要が出てきていますし、なんというか、「crowbarはオブジェクト指向的でない」という声がどこかから聞こえてきそうです。

crowbarだってクラスらしきものは作れるのだから、 Pythonのような実装にすることは可能です。

しかし、たとえばJavaでは、replace()やsplit()はStringのメソッドです。そして、match()(matches())はMatcherクラスのメソッドです。 JavaとPython、どちらかの設計が「間違っている」とは私には言えません。

よく、オブジェクト指向のメリットとして、「従来は分厚いリファレンスマニュアルから一所懸命関数を探さなければならなかったが、オブジェクト指向では、クラスごとにメソッドが整理されたおかげで探すのが楽になった」という説明がなされることがありますが、 JavaとPythonでメソッドの存在する場所が違うなら、やっぱり探すのに苦労するのではないでしょうか。「ポケットひとつの原則」を破っているのでなおのこと。

とはいえ、フラットな名前空間に大量の関数が転がっているのもやっぱり問題です。これを解決するのは(Javaで言えばpackageに相当する)名前空間であり、クラスではなかろう、というのが私の考えです ^※3

――と言いつつ、現状のcrowbarには名前空間を分割する機能がないので、今回は、プレフィクスreg_で逃げてグローバルな関数としました。これまたcrowbarをどこまで正規表現に特化させるかという問題になってくるわけですが、「プレフィクス付きグローバル関数」というのは、正規表現からそれなりに距離を保ちつつ、「Perlのようなもの」であることも維持する、という、なかなか微妙な、しかしcrowbarらしい位置付けかなあ、と思います。

不具合修正

前バージョンまでに存在した以下の不具合を修正しました。

謝辞とか

まずは、鬼車の開発者である小迫さんに感謝いたします。まだ私の方が使いこなせていませんが、あっさりとcrowbarに正規表現を組み込むことができました。

mbrtowc(), wcrtomb()関数を使用することについては、掲示板でのkitさんの投稿を元にしています。

正規表現リテラルの表記法や、ビルトインスクリプトについては、 2ちゃんねるのスレッド「コンパイラ・スクリプトエンジン相談室」が参考になりました。ただこのスレッド、勉強になるときもありますが、いかんせんS/N比が…

testディレクトリの中にワイド文字/マルチバイト文字変換テスト用のテキストファイルがふたつ入っていますが(code.txt, code2.txt)、これらはそれぞれ以下のページを元にしています。

今後のこと

ver.0.3で挙げた「することリスト」は、「モジュール」を除いて達成しましたから、新しいリストを作るとします。

正規表現ライブラリ鬼車の搭載

ごぶさたしてました