これで検索結果の項目数だけのテキストファイルが出来ました。
各ファイルのHTML化は秀丸マクロ(03.mac)を使います(03は単なるバージョン番号です)。
ファイルを開いた時点で実行すると整形してくれます。よければ解析してください。
あとはこれをループで回します。
ループするマクロはこちら(scan.mac)。これは解析して環境に合わせてください。合わせ方も注釈として書いてあります。scan.macを開いて最初の2行を設定します。\はエスケープ文字なので\\と二重化することに注意してください。
サブルーチン化してあるので、一度に複数のフォルダをスキャンして、それぞれの辞書フォルダに整形したファイルを転送します。転送時に拡張子をtxtをdicに換えます。uwscで抽出時にヒット数1483なら1483個のdicファイルが指定フォルダに作られるはずです。
秀丸マクロの実行時間は解析、転送に要した時間は1483ファイルの作成に1705秒、1ファイル1.15秒でした。
実行の動画です〔クイックタイムはこちら〕。片方では臨床内科のテキスト抽出をやっています。2つの画面で同時進行している様が壮観です。
DOSプロンプトへ以下のテキストを貼り付けますと、一気に結合します。
で一気に結合します。
できあがったのが1冊分の辞書ファイルとなります。