2021年8月24日火曜日

「人口知能が俳句を詠む」ですって?

[このテーマの目的・ねらい]
目的:
 人工知能で俳句を作る挑戦を知っていただきます。
 意欲の高い組織が極めて高い成果を上げることのできる事例を
 知っていただきます。
ねらい:
 AIの手法にもう少し身近になれるといいですね。

ーーーーーーーーーーーーーーーーーーーーーー
「人口知能が俳句を詠む」は、
北大大学院情報科学研究員の川村秀憲教授たちの研究発表です。


川村教授は、2017年春に知人から
「人工知能に俳句を詠ませることはできますか?」
という問いかけを受け、この研究を始めたのです。
短期間での成果はビックリです。この世界の進歩の早さも痛感します。

早さにビックリには、こういうこともありました。
まだ漸くよちよち歩きの状態のときに、
NHKの「超絶 凄ワザ!」という番組から、
「3か月後に企画している人工知能と人類の俳句対決をしませんか」
という誘いを受けました。
その誘いを受けたのです。
それから急遽、部外者を含めたプロジェクトチームを作りました。
部外者は、北大内の他部門、ITベンチャー、愛媛大学、松山市役所のメンバなど多岐にわたっています。

そんなスピードは先進的ベンチャー顔負けです。
意欲の高い組織では、
凄いハイパフォーマンスが可能であることを実感いたします。

その過程で、教師データはひらがな表記の小林一茶の俳句2万首を使っていたのを正岡子規、高浜虚子を加えた漢字交じり表期の5万首に変更強化しました。
それを1か月でしてしまったのです。
そしてアルゴリズムの試行錯誤・改良を経て次のような句ができるようになりました。
 ひとり身や山は蛍となりにけり
意味は分かりませんが俳句の形になっているのです。

ところで、「人工知能で新薬を発見する」のと違って
「人工知能で俳句ができたら何が嬉しいの?」という疑問は、
著者たちも理解していて、俳句を作るプロセスで人工知能の能力を高めるのだ、と明言されています。

因みに、この書ではAIの技術についても解説してくれています。
【AIの技術】 紹介省略
 ニューラルネットワーク
 機械学習
 ディープラーニング

俳句を作る技術・評価する技術については、概要このように紹介されています。
【俳句をつくるAI技術】
俳句に出てくるすべての単語に対して先頭に出てくる確率を計算します。
そして確率の高い単語に比較的高い確率を与える選択をします。
2番目以降に来る単語については、
その前の単語がなんであるかを考慮した確率を使います。
現在使用しているGPT-2手法では、
ひとつ前に決まった単語だけでなく、
決定されている文字列すべてを前提として処理します。
その際、5.7.5に収まるかどうかの考慮もします。

単語の解析には、「形態素解析」手法を用います。
2億文字以上の日本語の文学作品と40万句以上の俳句を
教師データとして使用し単語のつながり関係を学習しています。

【俳句を評価するAI技術】
1)生成された句と教師データとして用いた句が似ているものを削除します。
2)有季定型句の条件に合わないものを削除します。
  (季語を含まないもの、季語が二う以上あるもの、
   切れ字が二つ以上あるもの、5.7,5になっていないものを省く)
3)形態素辞書にない言葉を含むものも削除します。
4)単語の並びで前後の関連度の低いものが多い場合も削除します。
5)意味の通らない句を削除します。
  (実際の俳句の単語を入れ替えた教師データを作った、
   俳句でない文章に含まれている文言を対象外とした)
 
後掲の記述のようにそれ以上の評価をすることはできません。
俳句を作る人の心を模倣できるようにならないとダメなので至難です。

【AI一茶くん成長の各ステップ】
1.2018.1 NHKの「超絶 凄ワザ!」
お題は四季折々の写真3点で俳人と勝負します。

小林一茶、正岡子規、高浜虚子の作品5万句を教師データとして用い、
LSTM(説明省略)を用いた文章作成モデルで生成した俳句から、
以下の条件のものを除きました。
  1)季語を含まない句
  2)切れ字(かな、や、など)を複数含む句
  3)5.7.5になっていない句
  4)教師データと類似している句
 
さらに、
画像とそれに合った俳句の36万ペアを学習して作った機能を使い
お題となる画像とマッチしている度合いが高いと判定された句を
高い順に並べたリストを作成しました。
その3万句から、人間がお題単位に一つ選びました。
  
結果は0勝3敗でしたが、1点は3人の審査員のうち1人から
投票されました。スゴイ成果です!!
その句は「又一つ風を尋ねてなく蛙」でした。
 
課題は、教師データの強化(若い人の句の採用)と
画像と俳句がマッチしていることの判定方法強化、でした。
 
2.2018.7 北大内イベント しりとり対決
教師データは現代俳句4万句に変更しました。
一茶くんが生成した句と人間が詠んだ句の比較をして
「人間らしさ」係数を算出し選句に利用しました。
(しかし、その情報も参照して、人間が選んだ句は
 「人間らしさが高くも低くもない」ということで、
 このロジックの完成度は今一でした)

審査員の評価結果は、一茶くんの作成した句は
平均点で「俳句として技術的に成立しており、
詩的要素、発想・技術に見るべきものがある」のレベルでした。
一茶くんの作成した最高点(俳人の作品を含めて)の句はこれです。
  かなしみの片手ひらいて渡り鳥

3.2019.3 北大内イベント 兼題対決
一茶くんは数百万句の生成が可能となっていましたので、
お題からそれに合致した句も多数あります。
そこでそれを絞る工夫をしました。
(人の詠んだ句を適当に語を入れ替えた句を作り、それを学習させて、
 対象の句が「入れ替えて作られているらしい確率を計算する)

会場の聴衆が作者不明状態で、よい方に挙手する方式での
俳人チームとの対戦成績は5題に対して2勝3敗でした。
結構いい線まできています。
一茶くんが勝った2句はこれです。
 題「冴返る」:朝シャンのやうな顔して冴返る
 題「蕗の薹」:蕗の薹散らしてゐたる会釈かな

4.2019.6 松山市イベント 「恋の俳句選句大会」
大会運営者が選んだ恋関連ワード18語を含む句の
出来栄えを評価します。
一茶くんが382万句を生成しましたが、その中から750句を選定し
26名の参加者に300句ずつを配布しました。
そして、参加者に、波選30句程度、特選5句、一押しの恋の句1句を
選定してもらいました。
26名が選んだ一押しの句を対象に本選を行いました。

参加者は2句、観覧者は1句を選んで集計しました。
その得点の上位5句で決勝戦を行い1句を決めました。
その句は「初恋の焚火の跡を通りけり」でした。
この選定過程のデータは「優れた俳句」の条件を把握できる
貴重なものとなりました。

5.2019.9 一茶くん初めての吟行
「あやとり橋から撮影した大聖寺川の画像」から
適切な句を一茶くんが自動で選定することをしたのですが、
選定された句は選者からいい評価は得られませんでした。
的確に画像を詩的に解析する能力の不足が課題となりました。
 二人出て水のつめたき春の川(今は秋で不可の選者評)



















6.2020.4 日本テレビ「人間vsAI」
二人の俳人と一茶くんの作った俳句を3人の審査員が選定します。
お題は恋です。そこで既存のデータベースを利用して、
恋の連想語、さらにその連想語を検索し一茶くんの作品を検索しました。
その中からお仲間の俳人に1句を選定してもらいました。
それは「鳥の巣をふれるかたちの手を握る」でした。

結果は、3人の審査員の3句に対する投票は、2点、1点。0点で
一茶くんは1点を獲得することができました。
いい句は作れるがそれを選ぶことはできない、ことが再確認されました。

7.2020.8 日本テレビ「笑ってコラえて!」
「人が映っていない晴れた昼間の銀座三越前交差点の写真」
を見て句を詠みます。

一茶くんの支援役の俳人から、
「連想関係が強い言葉がでてくる句は陳腐になる」
という指摘をいただいて、
意味合いが遠い単語の組み合わせが含まれた俳句に高い評点が与えられる
ようにして候補を選定しました。
その結果は「宙吊りの東京の空春の暮」でした。

対するスタジオゲストが詠んだ句は
「まだなのにすでに祭りのあとのよう」で、
著者は、「抽象度の高さ、比喩の利用の点などでこれはかなわない」
と評しています。

ここに、こういう記述があります。
 近年、人工知能の出力結果を説明する「説明する人工知能」
 の開発が進められています。
 俳句の生成・選句についても、
 なぜその俳句を選んだのかという理由を説明することができれば、
 俳句に対する理解が格段に深まるのだと思います。
 俳句をさまざまな角度から解釈して、想像力を掻き立てることは、
 俳句の楽しみ方の一つでもあります。
 
以上で挙げられた課題の解決にチャレンジしていくことになります。
1)いい句の条件を明確にすることでいい句を作成する能力を向上させる。
2)連想・抽象化能力、思いを込める能力を高める。
3)いい句を選定する能力を高める。
 (注:1)2)3)の順に難しいでしょう)

俳句を作り評価する仕組みの強化を通じて、
日本語文章の生成・評価・要約のAI能力が向上することを
期待いたしましょう!!

0 件のコメント: