著作権が消滅した文学作品などを集めた「青空文庫」。その収録作品数は 2015年2月16日現在で 12,942 もあるそうですが、それら作品群の中から任意の語句を検索することができる「青空文庫全文検索サイト」というサービスがとても便利なので紹介したいと思います。
※このサイトの最終更新日が「2007-04-29」となっていますので、収録作品数は上記の数より少ないと思います。
※いちばん上の画像は楽天koboの「青空文庫シリーズ」から『こころ』の表紙を引用しました。
「青空文庫全文検索サイト」の使い方
例えば、「精神的に向上心のないものは馬鹿だ」って誰の言葉だったかな? と思ったときなどに、検索欄のいちばん大きいボックスに「精神的に向上心のない」と入力して検索すると、以下のように結果が表示されます。
ここで表示されるのは抜粋ですが、左上の「夏目漱石 こころ」という部分をクリックすると、作品の全文が表示されます。これは便利です。
個人的にとても嬉しいのは、青空文庫の本家サイトに掲載されているデータにルビがふられていても、ここで表示される作品の全文にはルビがないことです。
また、検索結果にはタイトルや著者のほか、底本名や出版社などのデータも表示されます。
底本(ていほん/そこほん)とは、青空文庫の原稿を作成する際に元の資料とした本のことです。例えば、同じタイトルでも出版社によって表記が異なっているケースもあるので、どの本を参考にしたかということが場合によっては重要になります。
原題名や著者名でも検索可能
作品の中に登場する言葉以外にも、上のデータ欄に表示される各項目で検索できます。
例えば[原題]に「走れメロス」と入力すると、太宰治の『走れメロス』の作品そのもの(文書ファイル)と図書カードが検索されます。
図書カードとは作品の詳細データが記されたものですが、必要なければ検索欄の選択ボタンを[すべて]から[文書ファイル]に変更すれば、文書ファイルのみが表示されるようになります。
気になる言葉の使用状況を調べてみる
さて、この「青空文庫全文検索サイト」に対して私が期待しているのが、コーパスとしての機能です。コーパスとは「【誤用】「鑑みる」は「考えてみる」という意味ではない」の記事でも触れましたが、「言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。(Wikipedia)」のことです。
このときには、「鑑みる」という言葉について「に鑑み」と「を鑑み」というふたつの使われ方の状況を別のコーパスで検索しました。
結果は「に鑑み」が 197件、「を鑑み」が 34件でした。
ただ、このコーパスには無名の一般人が書いた文書も含まれていますので、明らかな誤用でもヒットすることがあります。青空文庫で紹介されている作家が必ずしも正しい日本語を書くとは限りませんが、説得力はより増すと思います。
試しに、「青空文庫全文検索サイト」でも「に鑑み」と「を鑑み」について検索してみました。
結果は「に鑑み」が 25件、「を鑑み」は 0件でした。
「〜を鑑み」という使い方は間違いである、と主張している人たちにとって、この検索結果は非常に頼もしいものになるでしょう。「文豪と呼ばれる人たちが使っていないのだから、やっぱり間違いだ」と言い張れますからね。
・ ・ ・
というわけで、今回は青空文庫の便利な検索サービスを紹介しました。最終更新日が 2007年となっているところが気になりますが、いつの間にかサイトがなくなってた、なんてことにならないよう祈ります。
(追記)やっぱりなくなってました・・・