@Azrael: IS01のユーザー辞書

ページ

2010年7月12日月曜日

IS01のユーザー辞書

2chでCSVからユーザー辞書を取り込めるツールを作る、
と言ったは良いけど、土日で形にできなかったので、
分かっている範囲でフォーマット情報を開示しておきます。

ツール作ろうって方は参考にしてください。
参考にした資料もありますが、あくまで個人で解析した結果で、
正しいものとは限りませんが…

バックアップされる4つのファイルのうち、
ユーザー辞書は拡張子がudcの2つ、頭がEの方は英語のもの
拡張子がldcのものは学習辞書

全体ではヘッダ、インデックス、単語ブロックの繰り返し、フッタの形になっています。

ヘッダ
00000000~00000004:[NJDC]識別子
0000000F~0000000F:ヘッダを覗いたファイルサイズ?(104508)
00000020~00000023:単語ブロックの開始位置(2076)
00000026~00000027:登録されている単語の数
00000028~00000029:単語ブロックの数(500)
00000034~00000035:登録されている単語の数(00000026~00000027と同じ)
00000036~00000037:最後に編集した単語ブロックの位置
0000003C~0000003F:インデックス1のアドレス(72)
00000040~00000043:インデックス2のアドレス(1074)

インデックス
インデックス1は読み、インデックス2は表記の昇順で、
単語ブロックの位置が2バイトずつ500個並んでいる
最後に2バイト00がついていて、それぞれ1002バイト

単語ブロック
1ブロック205バイト*500ブロック
00000000~00000002:01 63
00000003~00000003:読みのバイト数
00000004~00000004:32
00000005~00000005:表記のバイト数&0x80
00000006~ :読み、表記が詰めて設定されている
読み、表記はそれぞれ最大100バイト
文字コードはUNICODE

フッタ
[NJDC]識別子

・途中の単語を削除した場合、詰められずに空きができ、
次に登録されたものがそこに入るみたい。
・必要かどうかはわからないけど、絵文字も設定できる。
(標準の登録画面からはクリップボードから貼り付け無いと無理)

来週には形に出来ると良いね…

0 件のコメント:

コメントを投稿