AIに嬉しい・悲しいは区別できるのか?

(本記事はMENOUフォーラム1周年記念企画の技術コラムです)

こんにちは、MENOUで開発と営業を担当している中田です。 今回はMENOU-TEを使ってAIに嬉しい・悲しいの判定をさせたいと思います。
ディープラーニングを研究する企業から市井のプログラマーまで、AIで「犬・猫」など身近なものをクラス分類するのは定番のテーマです。ふだんは工業製品を中心に検査しているMENOU AI開発プラットフォームでもたまには余興としてそんなAIを作ってみましょう。

[データ]

  • Adobe Photo Stockからキーワード「嬉しい」「悲しい」で検索し、それぞれ50データずつ選んでダウンロードしました。
  • 1000x670ピクセル前後の横長画像を選択しました。
  • 人物の写真だけに限定し、動物やイラストで表現したものは避けました。
  • 写っている人数、性別、年齢、人種はできるだけバリエーションが出るようにしました。
  • 画像は無料で利用可能なプレビュー版のため、透かしが入ったものを使用しました。

”嬉しい”

”悲しい”

[学習・推論方法]

  • タスクは「嬉しい・悲しい」の1タスクだけ。
  • 「嬉しい(水色)」「悲しい(紫色)」の各クラスに関して、25データずつアノテーションして学習に使用しました。つまり、全体の半分を学習に使用しました。
  • 前処理で1/2にサイズ変換。
  • Epoch 1000で学習(所要時間は30分)。

[結果]

  • 認識精度 = 86%

簡単だろうと思いきや、14枚も不正解という結果に。不正解のデータをそれぞれ確認して、AIが間違えた傾向を見出そうとしましたが、原因はよくわかりません。悲しいと誤認識(正解は嬉しい)の大半は満面の笑みをモデルさんが浮かべているし、写真全体の明るさもまちまち。一方の嬉しいと誤認識(正解は悲しい)についても頭を抱えるポーズなど学習にも多数加えたデータと類似性あるものさえ高確率で不正解という結果になってしまいました。顔をアノテーションしてから分類すれば多少改善するかもしれませんが、バンザイや頭を抱えるポーズなどからも学習してほしかったので少々残念な結果に。背景がバラバラなことを考えるともっと学習データ数を増やしてやらないといけなさそうですが、このサイズを50枚も学習させると分類タスクでさえ30分もかかるため、今回はここまでとしました。

悲しいと誤認識(正解は嬉しい)

嬉しいと誤認識(正解は悲しい)

[所感]
今回のような感情や印象といったあいまいな対象をAIに解析させるには、もう少し問題を単純化してやる必要がありそうです。実は、「問題の単純化」は私たちがふだん工業製品の検査を作るときも行っているアプローチでして、同じ背景・ワークで数枚撮影する、JPGでなくPNGを使用する、アノテーションはきれいに塗る、などもその一環です。AIは知能ではなく、知能を模した計算アルゴリズムですので、解析の妨げになる要因はできるだけ取り除かないと性能を発揮できません。

逆に、今回は複雑な画像を与えられても瞬時にいろいろな判断ができる人間の情報処理能力のすごさを改めて実感しました。人類は長い進化の過程で相手の表情やしぐさから感情を読み取ることで社会性を育んできたと言われています。人とAIそれぞれの特長を理解した上で、生産性を上げるような方法を考えていきたいと思います。

「いいね!」 5