プログラミング言語を作る/オブジェクトとクロージャ

このごろの言語はオブジェクト指向でなければ言語として認めてもらえないような気配もあったりするので、 crowbarにもオブジェクトを組み込むことにします。

が、crowbarのオブジェクト指向は、 C++やJavaのそれとはちょっとばかり趣が違います。なにしろクラスがありません。

では具体的にどんな仕様と実装になっているのか、今回はそれを説明します。

オブジェクト

crowbarでは、配列の生成はネイティブ関数new_array()を使いますが、同様に、オブジェクトはネイティブ関数new_object()を使用します。

Cの構造体と同じように、crowbarのオブジェクトはメンバを持ちます。ただ、型の宣言がないので、メンバは、代入により実行時に追加されます。

型宣言がないのは気持ちが悪い、という人もいるでしょうが(いやその私もそのひとりなのですが)、ひとまずこれで、Cの構造体に似たことは実現できます。

なお、Javaなどと同様、オブジェクトは参照型であり、 new_object()で返されるのはオブジェクトへの参照です。よって、以下のコードは20を表示します。

「オブジェクト」という用語について

前回のGCの説明では、文字列や配列といった参照型のデータを、まとめて「オブジェクト」と呼んでいました。そして、これらの型を表現するために、 CRB_Objectという構造体が導入されています。

が、今回は、new_object()で生成されるモノのことを指して「オブジェクト」と呼んでいます。

このあたり、用語が混乱しているわけですが、他に適切な言葉が思いつかなかったもので――すみません。

というわけで、用語が混乱しているのは素直に認めるとして、今後どのように言葉を使い分けていくかですが、

crowbarの使用者側の用語としては、「オブジェクト」は、 new_object()で生成される構造体のようなものを表す。
crowbarの実装者側の用語としては、「オブジェクト」は、文字列、配列、使用者にとっての「オブジェクト」といった、ヒープに領域を確保するモノの総称である。

ということにしようと思います。

では、実装者側は、「new_object()で生成される構造体のようなもの」を何と呼べば良いのか、ということになりますが、ここでは「assoc」と呼ぶことにします。「assoc」というのは連想配列(associative array)の略です。文字列をキーに値が取り出せる、という点において、 crowbarのオブジェクトは結局のところ連想配列だからです ^※1。

オブジェクトの実装について

オブジェクト(実装者用語のassoc)は、参照型ですから、配列や文字列と同様、 CRB_Objectの共用体のメンバとして保持します。当然、対応する列挙型も必要です。

なにやら「SCOPE_CHAIN」とかいうのも増えていますが、これについては後述。

そして、CRB_Assocそのものの定義は、以下のようになります。

なんのことはありません。「メンバ」というのは名前と値の組で、 assocは、それを可変長配列で保持している、というだけです。

ちなみに現状の実装では、メンバが追加される度に realloc()でひとつずつ要素を増やしていますし、新規要素は可変長配列の末尾に追加されます。検索はリニアサーチです(ま、富豪的プログラミングということで)。

assocを操作する関数群はheap.cに用意されており、以下のものがあります。

当然ですが、assocが追加されたことで、GCも修正する必要があります。 GCはmarkフェーズにおいて、assocのメンバを順に辿ります。

クロージャ

オブジェクトと言うのならデータメンバだけじゃなくメソッドも要るだろう、メソッドはどうした、という声が聞こえてきそうですが、それはしばらく放置して、別の話を進めます。

crowbarではクロージャというものを使うことができます。クロージャとは、式の中で定義できる関数のようなものです。

「closure」というのは、クロージャ生成のための予約語です。この後ろに、括弧で囲んだ仮引数とブロックを書くことで、クロージャが生成され、ここではそれをcに代入しています。「c(10)」のように書くことで、それを呼び出すことができます。よって、このコードは、「a..10」と表示します。

Cプログラマなら、これを見れば、「なんだ、関数ポインタのようなものか」と思うでしょう(まあ、クロージャには、式の中でひょっこり書けるという手軽さはありますが)。クロージャは、確かに関数ポインタによく似た側面がありますし、実際、同じような使い方もします。

ただし、決定的に違うのは、クロージャは、クロージャが生成された個所のローカル変数を参照できる、ということです。

一例として、foreachについて考えてみます。 crowbarで配列の全要素についてループしたければ以下のように書きますが

この書き方は、それが配列であるということに依存した実装になってしまっています。気が変わって配列ではなく連結リストにしたら、このような記述をしている個所すべてを直さなければなりません。それは嫌だということで、たとえばC#では、 foreachという構文が用意されています。

この構文は確かに便利ではありますが、便利だからといって構文規則にまで手を加えるのはいかがなものか、という考え方もあるでしょう。しかし、クロージャが使える言語なら、たとえば以下のように書けるわけです (現状のcrowbarでこう書けるわけではないので注意)。

このforeachは予約語ではなく、単なるライブラリ関数です。第1引数にコレクションのオブジェクトを、第2引数にクロージャを受け取っています。 foreach関数が、コレクションに格納されている要素を順に取り出し、それを引数として、第2引数で渡されたクロージャを呼び出してくれるわけです。

単にforeach関数から呼び出してもらうだけなら、 Cの関数ポインタでも実現は可能でしょう。しかし、このような使い方をするなら、ループの内側において、外側のローカル変数を参照したいと思うのが普通ではないでしょうか。

クロージャではそれが可能であり、その点が、 Cの関数ポインタとの決定的な違いであるわけです。

メソッド

さて、オブジェクトとクロージャを組み合わせると、以下のような書き方もできることになります。

crowbarには特に「メソッド」という機能はないのですが、オブジェクトのメンバにクロージャを格納することで、見掛け上、JavaやC++のメソッドと似たようなものを実現できます。

上記の「this」は予約語でも何でもありません。単なる変数ですので、どんな名前でもよいのですが、 JavaやC++に慣れた人にはthisがわかりやすいのではないでしょうか。ポイントは、クロージャはその外側のローカル変数を参照できるので、 print()やmove()の内部からthisが参照できる、ということです。

また、ポリモルフィズムがしたければ、「サブクラス」にて、「スーパークラス」のメソッドを上書きすればよいわけです。もちろんcrowbarにはそもそもクラスがないので、「スーパークラス」も「サブクラス」も、使う側で決めるものでしかないのですけれど。

カプセル化が欲しければ、xやyをthisに格納せずに、以下のようなget_x()やget_y()を書けばよいでしょう。この場所のクロージャからは、引数、すなわちローカル変数であるxやyが参照できるからです。

クロージャの実装について

上のリストを見て、こんな疑問を持った人もいるのではないでしょうか。

――もっともな疑問ですが、これがそうならないのがクロージャの面白いところです。

Cなどでは、ローカル変数の領域は、関数に入った時点でスタック上に確保され、関数を抜けたタイミングで解放されます。この時、確保/解放されるひとかたまりのメモリをフレームなどと呼びます。

crowbarでも、ver.0.2までは本質的に同じです (フレームをスタックではなくヒープに確保する、というだけで)。ところが上の例において、print()やmove()といったメソッドは、 create_point()がとっくに終了した後で呼び出され、しかもその中でthisなどを参照しています。今までと同じように、「関数を抜けたらフレームは解放される」という規則では、これに対応できません。

現状のcrowbarでは、フレームが確保されるタイミングは従来通りですが、解放されるタイミングは、「関数を抜けた時」ではなく、「フレームへの参照がなくなった時」です。つまり、フレームの解放はGCが行ないます。

では、実際の実装方法を考えてみましょう。まず、フレームは、1回の関数呼び出し分のローカル変数群の格納場所ですが、ローカル変数群というのは、要は変数名とその値が複数組み合わさったものですから、今ならassocが使えます。つまり、関数呼び出しのタイミングで、ひとつのassocが生成され、ローカル変数はそこに格納されることになるわけです。

そしてクロージャですが、クロージャは、関数ポインタと似ていますが、それが生成された個所のローカル変数を参照できるという特徴があります。ここで、クロージャの「生成」と呼んでいるのは、以下のような、予約語closureを使ったクロージャの定義が、実行されたタイミングを指します。

closure以下の記述が「クロージャ」という値を生成し、それをthis.printに代入しています。クロージャは値ですから、CRB_Valueに格納できなければなりません。よって、CRB_Valueの共用体定義の中に、 CRB_Closureを追加する必要があります。

なにやら「FAKE_METHOD」とかいうのも増えてますが、これについては後述(こんなんばっか)。

そして、そのCRB_Closureの定義ですが、クロージャは、関数ポインタと、それが生成された個所のフレームが参照できる、という定義からすれば、以下のようになりそうな気がします。

メンバfunctionは、関数定義の実体であるCRB_FunctionDefinitionを指します。そしてenvironment^※2は、クロージャが生成された個所のフレームを指す ――ということになりそうな気がしますが、ここでもうひとつ考慮しなければならないことがあります。それは、クロージャはネストができる、ということです。

上のコードで、内側のクロージャの内部からは、ローカル変数a, bの両方が参照できなければならないでしょう。

この例で言えば、まず15行目の呼び出しにより f()が呼び出された時点でフレームがひとつ生成され、 aはそのフレームに格納されます。そして、3～11行目までで、クロージャc1が生成され、 f()はそのクロージャを返します。まだc1は実行されていないので、クロージャc2は生成されていません。

次に、16行目の呼び出しにより、クロージャc1が呼び出され、この呼び出しによりもうひとつのフレームが生成されます。 bはこちらのフレームに格納されることになります。そして、クロージャc2が生成されるわけですが、この中からは、別々のフレームに格納されているaとbを両方とも参照したいわけです。

頭がこんがらがってきそうですが、ひとまず言えることは、「ローカル変数を参照する際は、ひとつのフレームからだけ探せばよいわけではなく、複数のフレームを順に辿って検索しなければならない」ということです。

そこで、スコープチェーンという概念を導入します。スコープチェーンとは、フレームとなるassocを連結リストで管理するためのものです。

この連結リストを構築するために、 ScopeChainオブジェクトを導入します。 ScopeChainオブジェクトもGCの対象としたいので、 CRB_Objectの共用体のメンバとします(上の方で後述すると言ったうちのひとつがこれ)。 ScopeChain構造体の定義は以下の通りです。

そして、CRB_Closureは、フレームのassocを直接指すのではなく、 ScopeChainを指すことになります。

また、LocalEnvironment構造体も、同様にScopeChainを指すことになります。

これを具体的にどのように使うのかは、実際の動きを追いながら考えるのがわかりやすいでしょう。

実際の動きを追ってみる

というわけで、上で挙げたクロージャのネストのサンプルをベースに、実際にクロージャがどのように生成され、スコープがどのように変化していくのかを追ってみましょう。一応リストを再掲します。これが本ならページ稼ぎとか紙資源の無駄とか言われるところですが、 Webだと、量をほとんど気にしなくてよいところがよいですな。

構文規則

オブジェクトとクロージャの実現のため、構文規則を以下のように変更しています。

オブジェクトのメンバ参照を、新たにpostfix_expressionとして追加しています。また、関数呼び出しについては、従来は以下のように定義されていましたが、

クロージャの導入により、呼び出し対象がIDENTIFIERとは限らなくなったので、 postfix_expressionに引越してきています。

引数のありなしで2通り、およびclosureの後ろに名前を付けるかどうかで2通り、 2×2の4通りの構文が定義されています。

ここまでの例では、クロージャには名前を付けていませんでした。名前付きのクロージャはどのようなケースで使うのかといえば、クロージャの中で自分自身を再帰呼び出ししたいケースです。

実装上は、名前付きのクロージャは、そのクロージャが呼び出されて新しいフレームが生成された時点で、クロージャ自身を、その名前のローカル変数として登録することで実現しています。

上記closrue_definitionから、create.cにて以下の構造体が作成されます。

クロージャ定義からはCRB_FunctionDefinitionが構築されるわけですが、そのCRB_FunctionDefinitionは、CRB_Interpreterのfunction_listにはつながれません。解析木のClosureExpressionから参照されているだけです。

普通の関数

構文規則の項でも説明したように、ver.0.2までのcrowbarでは、関数呼び出しは以下のように定義されていましたが、

今のcrowbarでは、関数呼び出しを示す()の左側には、 IDENTIFIERに限らず任意の式を書くことができるようになりました。

そのため、普通の関数も、関数名がクロージャを返すようになっています。たとえば「print("hello\n")」という呼び出しは、「print」という識別子がクロージャを返し、それに対する呼び出し、という形で動作します。このとき、printが返すクロージャの environmentメンバはNULLになっています。

というように、普通の関数を変数に代入することも可能です。

メソッドもどき

crowbarでは、たとえば配列にはsize()という「メソッドのようなもの」が付いていました。

さて、これをどう実現するかですが、他の関数と同じように、クロージャを返すようにすると、配列のsize()に対応する関数を、ネイティブ関数なり何なりで作らなければなりません。まあ、作るのは作ればよいのですが、現状のCRB_Closureには、「array.size()」と呼び出した際、 arrayへの参照を保持する場所がありませんから、呼び出されても配列のサイズを返すことはできません。

そこで、CRB_Valueの共用体に、「メソッドもどき」専用CRB_FakeMethodというメンバを追加することにしました (上の方で後述すると言ったうちのもうひとつがこれ)。

関数呼び出しの際、対象がクロージャでなく「メソッドもどき」の場合は、 ver.0.2と同じように、ソース埋め込みでベタに処理しています。

白状すると

「クロージャ」という機能は、Lispなどの関数型言語ではよく使われます。 PerlやRubyやPythonやJavaScriptにも存在します。 ――が、私はこれらの言語をほとんど使ったことがないので、クロージャの「使いどころ」はおそらく身に付いてないと思います。

また、crowbarのオブジェクトは、クラスを元に生成されるのではなく、インスタンスごとに異なるデータメンバやメソッドを持つことができます。このような言語を「プロトタイプベース」と呼ぶのですが (現状のcrowbarにはプロトタイプチェーンがないので、そう呼んでよいかすら疑問ですが…)、私は、プロトタイプベースのオブジェクト指向言語もろくに使ったことはありません(JavaScriptで少々試した程度)。

経験が浅いからこそ、作ってみることで理解してみよう、という目的もあったわけですが、そもそも間違った理解をしている可能性もあります。間違いを見付けた方は、どうぞ御指摘くださいませ(_o_)

今後のこと

ここまでで、言語のコアとしての機能はかなり揃ってきたと思うのですが、割と闇雲に作ってきたため、いろいろいびつなところもあります。

以後の拡張(というか仕様のバグフィックス?)は、だいたいこんなところかなあ、と今のところ思っています。

オブジェクトとクロージャ