全俳句データベースを作った話

全俳句データベースを作った。

全部の俳句を網羅したデータベースを作成しました。
※季語が無いものも含まれています。
※字余り、字足らずには対応していません。https://t.co/2tB1reQOqg pic.twitter.com/gAo190o0eg
— ほり (@horicun) 2024年1月6日

おかげさまで7000いいね。万バズには行かなかったけど、自分の中で過去最大のバズ。うれしい😊

全俳句データベースは成功した。制作～公開の過程でいくつか選択肢があったが、結果的に正しい選択をしたと思う。振り返る。

コンセプト立案

コンセプトはGパンパンダの俳句名人というコントを見て思いついた。

www.youtube.com

真っ先に「全俳句データベース」という言葉が降りてきたが、本物のデータベースを使うことは一ミリも考えなかった。どうやって「データベースっぽく見せかけるか」だけを考えていた。

データベースとは

データベースとはデータがいっぱい格納された存在である。情報工学科出身の身としてはRDB(リレーショナルデータベース)が思い浮かぶ。しかし、今回の "データベース" とは図書館の蔵書検索システムのようなものだ。文系的データベース。これならガワだけを用意すればいくらでも偽装できる。

次に考えたのは全俳句データベース (≒全俳句検索システム) をデータベースたらしめるには、どのような機能が必要か、ということだ。図書館で本を検索すると、その本の分類番号が出てくる。ならば検索結果に番号を振るだけでデータベースっぽく見えるのではないか。勝ったと思った。あとは17字のひらがなを10進数に変換する (もしくは逆変換する) ことだけを考えればよい。

こうして全俳句データベースの「完全一致検索機能」と「番号検索機能」が生まれた。

魅せる工夫

で、いつもの自分だとこの状態で公開して10いいねぐらいで終わるのだが、今回はここから魅せる工夫を凝らした。

まず、サイトデザインは阿部寛のホームページをパクるオマージュすることにした。阿部寛のホームページは爆速であることで有名だ。今回の全俳句データベースも阿部寛のホームページと同じぐらい爆速である。(なぜならデータを格納していないので。) 全俳句データベースのおもしろポイントである「10の32乗オーダーの超巨大データベースなのに爆速」を強調するフレーバーとして阿部寛のデザインは機能した。

また、どう考えてもこれは全川柳データベースであり、全俳句データベースではないのだが、かたくなに全俳句データベースと名乗ることにした。ここでひよってはいけない。正確性と面白さは別。全川柳データベースよりも全俳句データベースのほうが絶対にキャッチーだし面白い。もともとが嘘の存在なのにここだけ正確性を考慮して全川柳と名乗るメリットはひとつもない。

とはいえ、総ツッコミされることは目に見えているので、一応「季語が無いものも含まれています。」「字余り、字足らずには対応していません。」と書いて乗り切ることにした。そのずぶとさ。

拡散されるには手軽に楽しめる機能も必要と思い、「ランダム」という機能を追加した。Twitter共有時のURLの飛び先をこのランダム機能にした。誰でもワンボタンで共犯者になれる仕掛け。

また、コンセプトが一発で伝わる機能も必要と思い、「全俳句一覧」という機能を追加した。元ネタのGパンパンダも早い段階で「あああああ　あああああああ　あああああ」と提示し最初の笑いを取っている。力技、しらみつぶし、強引の可笑しさ。馬鹿なことやってんな～って感じ。全俳句一覧はそれと同じ役割を持つ。

さらに、個々の俳句表示に「次へ」「前へ」というボタンをつけた。これによって、すべての俳句は「んんんんん　んんんんんんん　んんんんん」まで地続きなのだと感じさせることに成功した。このボタンをつけることで「全俳句」のリアリティが急激にアップしたと思う。

公開後の対応

公開後、「拗音を正しく扱えていないのではないか」という指摘が多くあった。「柿くへば鐘が鳴るなり法隆寺」は「ほうりゅうじ」が6文字扱いとなるのでデータベースに含まれない。逆に、「かきくへば　かねがなるなり　ほうりゅう」は含まれることになる。「字余り、字足らずには対応していません。」と言っているのに、字足らずが含まれてしまうことになる。まぁでもいいじゃないの、それぐらいは。しかしそういう本質から離れた部分に対し指摘が山ほど来る。普通にいらっとする。

正直、全然無視してもよいのだが、せっかくなので拗音を正しく扱えるようにした「バージョン2」も作ることにした。これにより、「拗音を正しく扱えていないのではないか」という指摘に「バージョン2で対応しました😊」と律儀にリプを飛ばすことに成功した。

拗音対応により、収録句数が約6溝から約1澗に増えました
— ほり (@horicun) 2024年1月7日

そして一気に収録句数が増えた。

バージョン１を捨ててバージョン2のみにすることも考えたが、すでに多くの人からバージョン1でツイートされており、そのリンクの整合性を取るのが面倒だったので、バージョン1とバージョン2を共存させることにした。結果的にこれがよかった。ランダム機能のキャッチーさはバージョン1のほうに軍配が上がる。(バージョン2のランダム機能はふがふがした俳句ばかり生成される。) なので、引き続きメインはバージョン1としつつ、「柿くへば～が無い」と言ってくる人対策として、バージョン1の完全一致検索機能の中にバージョン2へのリンクを載せた。(逆に、トップページやその他の機能にはバージョン2へのリンクを載せなかった。) 必要最小限の人に対してのみ、バージョン2へ誘導したのである。

眺める

公開後、99%以上の人から好意的な反応があった。一部の俳句愛好家は怒っているようだった。気持ちはわかる。ごめんね。自分たちのテリトリーに部外者が土足で入り込んでくることにストレスを覚えるのは、生物に刻まれた生存本能だ。そこはもう、「気分を害されたのならすんません…」という気持ちしかない。

俳句って日本語17音の全組み合わせを機械的に読まれてジャンルとして完全に解決されてしまってたんだ pic.twitter.com/SjGJnaWPvA
— チンーポ (@V0qXv) 2024年1月7日

↑たぶんこの人が悪い！笑

でも私はこの全俳句データベースによって「俳句がジャンルとして完全に解決された」とは全く思っていない。むしろ逆で、全俳句データベースによって俳句がただの文字列の組み合わせじゃないことがよりいっそう浮き彫りになったのではないか。あなたが「古池や蛙飛びこむ水の音」という俳句を知らない状態で、全俳句データベースでたまたま「ふるいけや　かわずとびこむ　みずのおと」という文字列に遭遇したとして、同じ感動が得られるだろうか。俳句とはただの文字列の組み合わせではなく、いつどこで誰がどのように詠んだか(「どのように」には書き方も含む) が重要なのではないか。そのことが強調されたと思う。

ほかにも、「全俳句データベースは既存作品の著作権を侵害していると言えるか」「全俳句データベースは将来の作品に対して著作権を主張することができるか」など、著作権に関するディスカッションのきっかけともなっている。(今回の全俳句データベースの中身は空っぽなので著作権侵害の懸念は発生しない(と信じている)が、もし本物の全俳句データベースが存在すると仮定して。)