In the Wildのデータセットで表情分類

2025-09-25

Haruka Asanuma

こんにちは、Quixotiksインターンの浅沼です。今回は、前回調査したIn the Wildデータセットを使って、最新のVLM(Vision-Language Model)であるGeminiとGPTがどこまで表情認識できるのか、その実験結果を報告します。


実験に用いたモデルとデータセット

モデル

実験には、Gemini 2.0 FlashとGPT-4oを使用しました。両モデルは、様々な画像認識ベンチマークで高い性能を誇る、現時点での代表的な商用VLMです。

データセット: CAER


データセットには、前回の記事で紹介したCAERを用いました。CAERは、日常的な環境で撮影された動画データで構成されており、現実世界でのAIの性能を測るのに適しています。このようなデータセットは、研究室のような理想的な環境ではなく、より複雑で予測不能な現実世界を意味するIn the Wildと呼ばれます。 ****また、動画から切り出された静止画データセットであるCAER-Sも用いて実験を行いました。

実験結果

実験1 動画(Video)による7分類【Gemini】


まず、動画を入力できるGemini 2.0 Flashに、以下のプロンプトで7種類の感情(Anger, Disgust, Fear, Happy, Neutral, Sad, Surprise)の分類をさせました。

動画に映っている人物の表情を、次の感情リストの中から一つ選んで判定してください。
もし複数の人物が写っている場合は、顔が最もはっきり見えている人物の表情を選んでください。
感情リスト: Anger, Disgust, Fear, Happy, Neutral, Sad, Surprise
出力はラベル名(例: 「Happy」「Sad」)のみとし、余分な説明や句読点は含めないでください。

その結果、Confusion Matrixを見るとNeutralへの分類が非常に多くなっていました。情報量が多い動画入力でも、In the Wildの分類はかなり難しいことがわかりました。

実験2 静止画による7分類【Gemini, GPT】

実験1でGeminiの精度が低かったため、「これはモデルの問題か、タスク自体の難しさか?」を検証するため、GPT-4oでも同様の実験を行いました。GPTは動画を入力できないため、CAER-Sデータセットを使用しました。

両モデルともに、ほとんどの画像をNeutralと推定し、分類精度は極めて低い結果となりました。この結果から、動画・静止画を問わず、「In the Wild」の表情認識タスク自体がVLMにとって非常に困難な課題であることが示唆されました。

実験3 静止画による6分類(Neutral除外)

Neutralへの偏りが非常に多いため、Neutralを除外した6感情での精度を検証しました。

  • Gemini 2.0 Flash: HappyとSadの精度は比較的良かったものの、Fearの弁別はほとんどできませんでした。また、SurpriseやFearをSadに誤分類する傾向が見られ、Angryの推定も不安定でした。
  • GPT-4o: HappyとSadに加え、Disgustの分類も比較的良好でした。しかし、AngryをSurpriseに誤分類する傾向が強かったです。

実験4 2段階推定の試み

「Neutral」への誤推定を減らすため、以下の2段階推定を試みました。

  1. まず、画像がNeutral非Neutralかを判定させる。
  2. 次に、非Neutralと判定された画像に対して6分類をさせる。

このアプローチも試みましたが、GeminiはすべてをNeutralに、GPTはほとんどをSurpriseに分類してしまい、2段階推定は機能しないことが判明しました。

まとめと考察

今回の実験から、以下のことが明らかになりました。

  1. 「In the Wild」の表情認識は、最新のVLMでも非常に難しい。
  2. Neutralの判定が、分類精度を大きく下げる要因となっている。
  3. 特定の感情(Happy, Sad)は比較的認識しやすいが、FearやAngryといった複雑な感情の認識は難しい。

特に、Neutralへの偏りが異常に大きかったのは興味深い点です。これは、VLMが「自信がない場合」に最も安全な選択肢としてNeutralを選んでいるのかもしれません。あるいは、現実世界の多くの表情が、研究で使われるような「はっきりとした表情」ではなく、「Neutralに近い曖昧な表情」である可能性も考えられます。

表情認識の精度を上げるには、プロンプトの工夫だけでなく、データセットの特性やモデルの振る舞いをより深く理解する必要がありそうです。

次回は、VLMが本当に表情を認識できていないのかを深掘りします。「認識はできるが分類が難しい」という仮説を検証するため、VLMに画像内の人物の表情を自由に記述させる実験の結果を報告します。