2025-09-25
Haruka Asanuma
こんにちは、Quixotiksインターンの浅沼です。今回は、前回調査したIn the Wildデータセットを使って、最新のVLM(Vision-Language Model)であるGeminiとGPTがどこまで表情認識できるのか、その実験結果を報告します。
実験には、Gemini 2.0 FlashとGPT-4oを使用しました。両モデルは、様々な画像認識ベンチマークで高い性能を誇る、現時点での代表的な商用VLMです。
データセットには、前回の記事で紹介したCAERを用いました。CAERは、日常的な環境で撮影された動画データで構成されており、現実世界でのAIの性能を測るのに適しています。このようなデータセットは、研究室のような理想的な環境ではなく、より複雑で予測不能な現実世界を意味するIn the Wildと呼ばれます。 ****また、動画から切り出された静止画データセットであるCAER-Sも用いて実験を行いました。
まず、動画を入力できるGemini 2.0 Flashに、以下のプロンプトで7種類の感情(Anger, Disgust, Fear, Happy, Neutral, Sad, Surprise)の分類をさせました。
動画に映っている人物の表情を、次の感情リストの中から一つ選んで判定してください。
もし複数の人物が写っている場合は、顔が最もはっきり見えている人物の表情を選んでください。
感情リスト: Anger, Disgust, Fear, Happy, Neutral, Sad, Surprise
出力はラベル名(例: 「Happy」「Sad」)のみとし、余分な説明や句読点は含めないでください。
その結果、Confusion Matrixを見るとNeutralへの分類が非常に多くなっていました。情報量が多い動画入力でも、In the Wildの分類はかなり難しいことがわかりました。

実験1でGeminiの精度が低かったため、「これはモデルの問題か、タスク自体の難しさか?」を検証するため、GPT-4oでも同様の実験を行いました。GPTは動画を入力できないため、CAER-Sデータセットを使用しました。
両モデルともに、ほとんどの画像をNeutralと推定し、分類精度は極めて低い結果となりました。この結果から、動画・静止画を問わず、「In the Wild」の表情認識タスク自体がVLMにとって非常に困難な課題であることが示唆されました。


Neutralへの偏りが非常に多いため、Neutralを除外した6感情での精度を検証しました。


「Neutral」への誤推定を減らすため、以下の2段階推定を試みました。
このアプローチも試みましたが、GeminiはすべてをNeutralに、GPTはほとんどをSurpriseに分類してしまい、2段階推定は機能しないことが判明しました。


今回の実験から、以下のことが明らかになりました。
特に、Neutralへの偏りが異常に大きかったのは興味深い点です。これは、VLMが「自信がない場合」に最も安全な選択肢としてNeutralを選んでいるのかもしれません。あるいは、現実世界の多くの表情が、研究で使われるような「はっきりとした表情」ではなく、「Neutralに近い曖昧な表情」である可能性も考えられます。
表情認識の精度を上げるには、プロンプトの工夫だけでなく、データセットの特性やモデルの振る舞いをより深く理解する必要がありそうです。
次回は、VLMが本当に表情を認識できていないのかを深掘りします。「認識はできるが分類が難しい」という仮説を検証するため、VLMに画像内の人物の表情を自由に記述させる実験の結果を報告します。