新・ゲーム開発講座

■ 新・ゲーム開発講座

■ へっぽこプログラミング入門♪

■第８夜：テキストファイルの構造

さて、ここでテキスト・インタプリタの話を始めたいところですが、順番から言いますとテキストファイルの構造について説明するほうが先になります。なにしろこれからプログラム的に解読しようという相手です。とはいえ、別段むずかしくはありませんのでさらっと行きましょう。

■文字コード

テキストファイルは、文字をコード表で置き換えたものです。試しに、バイナリエディタ（ファイルを16進数表記で直接編集するツール）でテキストファイルを覗いてみましょう。ここに

This is a pen.
It is not a pencil.

という内容のテキストファイルがあったとすると、そのバイナリは以下のようになります。

54 68 69 73 20 69 73 20 61 20 70 65 6E 2E 0D 0A 49 74 20 69 73 20 6E 6F 74 20 61 20 70 65 6E 63 69 6C 2E 0D

これだけだと何のことやらさっぱりですね（笑）。しかし暗号解読表があれば簡単に読むことができます。半角アルファベットは１文字８ビットのASCIIコードとして定められていて、それは以下の表の通りです。16進表記の 20H 以下は制御コードですが、とりあえず NULL=00H TAB=09H CR=0DH LF=0AH だけ覚えておけば充分でしょう。なおスペースは 20H です。

１

(

)

;

[

]

{

}

DEL

※例 '$'=24h '/'=2Fh 'M'=4Dh 'p'=70h

これをサンプルテキストファイルの１行目にあてはめてみましょう。この構造が分かれば、テキストの解釈はそう難しくないことがわかりますね。行の最後に、OD 0A というのがありますが、これは改行コードで 0DH(キャリッジリターン) と OAH（ラインフィード）の組み合わせになっています。テキストをたどって１文字ずつ表示していくプログラムを組んだ場合、この制御文字をきちんと処理するか無視するかで画面上の文章表示に味付けをすることが出来ます。

T	h	i	s	[ ]	i	s	[ ]	a	[ ]	p	e	n	.	□	□
54	68	69	73	20	69	73	20	61	20	70	65	6E	2E	0D	0A

■シフトＪＩＳコード

では日本語のような２バイト文字列はどうなっているでしょう。同じようにバイナリを見てみると以下のようになっています。

あ

～

本

日

は

晴

天

な

り

□

「あ」にあたるのは 82 A0 というコードです。８ビット＝２５６通りの識別子では日本語の漢字やひらがな、カタカナを表記しきれないのでこのように２バイトで１文字を現わします。

一般にWindows環境ではシフトＪＩＳコードと呼ばれるコード体系が使用されています。このコード体系は、１バイト文字（半角英数字）と２バイト文字の混合表記を簡便に行うために、２バイト文字の最初の１バイトは 80H 以上になっていて区別ができるようになっています。１バイト文字は半角カナを使わない限り 7FH 以下のコードになります。早い話、テキストから任意の１バイトを抜き出したとき、その一つ手前の１バイトを調べて 80H 以上だったら、その抜き出した文字は２バイト文字の２バイト目という簡易判定が出来る訳です。

･･･ちょっと説明がくどかった？かも知れませんが、この文字コードの特徴を使って、次項以降のインタプリタ作成を進めます。