top of page
検索

In the Wildのデータセットで表情分類

  • Haruka Asanuma
  • 2025年9月25日
  • 読了時間: 3分

こんにちは、Quixotiksインターンの浅沼です。今回は、前回調査したIn the Wildデータセットを使って、最新のVLM(Vision-Language Model)であるGeminiとGPTがどこまで表情認識できるのか、その実験結果を報告します。


実験に用いたモデルとデータセット

モデル

実験には、Gemini 2.0 FlashGPT-4oを使用しました。両モデルは、様々な画像認識ベンチマークで高い性能を誇る、現時点での代表的な商用VLMです。

データセット: CAER

データセットには、前回の記事で紹介したCAERを用いました。CAERは、日常的な環境で撮影された動画データで構成されており、現実世界でのAIの性能を測るのに適しています。このようなデータセットは、研究室のような理想的な環境ではなく、より複雑で予測不能な現実世界を意味するIn the Wildと呼ばれます。 ****また、動画から切り出された静止画データセットであるCAER-Sも用いて実験を行いました。


実験結果

実験1 動画(Video)による7分類【Gemini】

まず、動画を入力できるGemini 2.0 Flashに、以下のプロンプトで7種類の感情(Anger, Disgust, Fear, Happy, Neutral, Sad, Surprise)の分類をさせました。

動画に映っている人物の表情を、次の感情リストの中から一つ選んで判定してください。
もし複数の人物が写っている場合は、顔が最もはっきり見えている人物の表情を選んでください。
感情リスト: Anger, Disgust, Fear, Happy, Neutral, Sad, Surprise
出力はラベル名(例: 「Happy」「Sad」)のみとし、余分な説明や句読点は含めないでください。

その結果、Confusion Matrixを見るとNeutralへの分類が非常に多くなっていました。情報量が多い動画入力でも、In the Wildの分類はかなり難しいことがわかりました。


実験2 静止画による7分類【Gemini, GPT】

実験1でGeminiの精度が低かったため、「これはモデルの問題か、タスク自体の難しさか?」を検証するため、GPT-4oでも同様の実験を行いました。GPTは動画を入力できないため、CAER-Sデータセットを使用しました。

両モデルともに、ほとんどの画像をNeutralと推定し、分類精度は極めて低い結果となりました。この結果から、動画・静止画を問わず、「In the Wild」の表情認識タスク自体がVLMにとって非常に困難な課題であることが示唆されました。



実験3 静止画による6分類(Neutral除外)

Neutralへの偏りが非常に多いため、Neutralを除外した6感情での精度を検証しました。

  • Gemini 2.0 Flash: HappyとSadの精度は比較的良かったものの、Fearの弁別はほとんどできませんでした。また、SurpriseやFearをSadに誤分類する傾向が見られ、Angryの推定も不安定でした。

  • GPT-4o: HappyとSadに加え、Disgustの分類も比較的良好でした。しかし、AngryをSurpriseに誤分類する傾向が強かったです。


実験4 2段階推定の試み

「Neutral」への誤推定を減らすため、以下の2段階推定を試みました。

  1. まず、画像がNeutral非Neutralかを判定させる。

  2. 次に、非Neutralと判定された画像に対して6分類をさせる。

このアプローチも試みましたが、GeminiはすべてをNeutralに、GPTはほとんどをSurpriseに分類してしまい、2段階推定は機能しないことが判明しました。


まとめと考察

今回の実験から、以下のことが明らかになりました。

  1. 「In the Wild」の表情認識は、最新のVLMでも非常に難しい。

  2. Neutralの判定が、分類精度を大きく下げる要因となっている。

  3. 特定の感情(Happy, Sad)は比較的認識しやすいが、FearやAngryといった複雑な感情の認識は難しい。

特に、Neutralへの偏りが異常に大きかったのは興味深い点です。これは、VLMが「自信がない場合」に最も安全な選択肢としてNeutralを選んでいるのかもしれません。あるいは、現実世界の多くの表情が、研究で使われるような「はっきりとした表情」ではなく、「Neutralに近い曖昧な表情」である可能性も考えられます。

表情認識の精度を上げるには、プロンプトの工夫だけでなく、データセットの特性やモデルの振る舞いをより深く理解する必要がありそうです。

次回は、VLMが本当に表情を認識できていないのかを深掘りします。「認識はできるが分類が難しい」という仮説を検証するため、VLMに画像内の人物の表情を自由に記述させる実験の結果を報告します。

 
 
 

最新記事

すべて表示
DGX SparkでDocker+GPUを用いてtorchaudioを動かす方法

はじめまして!2024年10月から株式会社Quixotiksでインターンをしている深澤です。 現在は NVIDIA DGX Spark を使用して音声認識(ASR)に関する業務に携わっています。 ローカル ASR を Docker + GPU で動かす際に PyTorch の互換性エラーで少しハマったので、原因と解決方法をメモとして残します。 同じ状況の方の参考になれば幸いです! 背景 ローカル

 
 
 
日本人・東アジア人特化の表情データセット

こんにちは、Quixotiksインターンの浅沼です。 前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。 そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。 最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます

 
 
 

コメント


Quixotiks-2.png

株式会社 Quixotiks

東京都渋谷区神泉町 20-21 クロスシー渋谷神泉ビル

03-6826-2232

営業時間/平日9:00〜19:00

スクリーンショット 2024-03-06 17.57.17.png
  • alt.text.label.Facebook

Copyright © 株式会社 Quixotiks All rights Reserved.

bottom of page