"In the Wild"・動画の表情認識データセット

Haruka Asanuma
2025年9月22日
読了時間: 5分

こんにちは、Quixotiksインターンの浅沼です。今回も顔表情認識（Facial Expression Recognition, FER）に関する技術サーベイの報告を行います。

前回の記事では、表情認識データセットの「Controlled」と「In the Wild」という２つのタイプについて紹介しました。今回はその中でも特に重要だと感じた「In the Wild（より自然な状況下で収集された表情データ）」に焦点を当ててまとめます。

前回の復習：ControlledとIn the Wild

Controlledのデータセットは、研究者が用意した画一的な環境下で参加者に特定の表情をしてもらって撮影したものです。ラベルが正確で、表情と顔の筋肉の動きの関係などの基礎的な研究に適しています。ただし、私たちが日常で見せる自然な感情表現とは乖離がある点が課題です。

In the Wildのデータセットは、多様な背景や顔の角度を含む、現実世界により近い状況で収集されたものです。データにノイズが多い上に正確なラベリングも難しい一方、「実際に使える」モデルを作るためには欠かせないデータです。

様々なデータセットについて調べた結果、実際に表情認識モデルを構築する際にはControlled よりも In the Wild のデータを使うほうが有効だと感じました。

"In the Wild"・動画のデータセット

実際にIn the Wildのデータセットを見てみると、画像のみでは感情の判断が難しいものが多いと感じました。表情は一瞬の形だけでなくその前後の動きや変化の流れに意味があるため、動画として捉えることが重要だと考えています。

そこで本記事では、代表的な"In the Wild"のデータセット、その中でも動画形式で提供されているものに焦点を当てて整理しました。

AFEW (2012): "In the Wild"の先駆け

初めての自然な環境での表情認識データセット

データソース: 映画
特徴:
- ラボ環境で撮影されたものとは違い、様々な照明、頭の動き、年齢層を含む、よりリアルなデータを提供。
- 映画の字幕に含まれる「笑い(laugh)」などのキーワードを手がかりにシーンを収集。
ラベリング:
- アノテーターは2名。
- ラベルの信頼度はチェックしていない。
- シーン単位の支配的な感情と、人物ごとの個別感情の両方を明示的に記録している。
ライセンス: 非営利目的のみ
ソース：

CAER (2019): 商用利用も可能な大規模データ

In the Wild かつ動画では初めての大規模なデータセット。

データソース: 79のテレビ番組
特徴:
- 日常的な状況や多様な文脈を含む13,000以上の動画クリップを収集。
ラベリング:
- 二人以上のアノテーター（感情ラベルをつける人）が同じ感情にラベルした場合、そのラベルを採用。
- アノテーターはつけたラベルの信頼度を報告し、信頼度の平均が低い場合はデータセットから除外。
課題: 実際の動画データを見ると、写っている人物の人種や年代に偏りがあるように見える。
ライセンス：商用利用が可能（ただし著作権は元の動画保有者にあります）。
ソース

DFEW (2020): より大規模で多様な映画データ

品質の良いデータラベルを持つデータセット。

データソース: 1500本以上の映画
特徴:
- コメディ、悲劇、戦争など多様なジャンルの映画から16,000以上の動画を収集。
ラベリング:
- 各動画を10人の専門アノテーターがラベル付け
- 60%より多いアノテーターが同じラベルをつけた時にそのラベルを採用。
課題: 感情ラベルの数に偏りがあり、「恐怖」や「嫌悪」といった感情のデータが極端に少ない。
ライセンス: 非営利の研究目的のみ
ソース

FERV39K (2022): 「どんな場面か」を考慮したデータ

ただ表情を分類するだけでなく、「シーン（場面）」という新しい概念を取り入れた。

データソース: 映画、テレビ番組など様々なソース
特徴:
- 「口論」「学校」「ビジネス」「犯罪」といった22の具体的な場面を設定し、それに沿ってデータを収集・分類。
- 約39,000本という非常に大規模な動画データを含みます。
- アジア、アフリカ、ヨーロッパ/アメリカなど、多様な地域の動画を収集しようと試みています。
ラベリング:
- 2段階のアノテーション構成
  - 1段階目：3人のあのテータがラベリング
  - 2段階目：専門家が検証
ライセンス: 非営利の研究目的のみ
ソース

MAFW (2022): 複合感情やテキストも扱うデータ

MAFWは、表情認識の複雑さをさらに深く捉えようとする、非常に野心的なデータセットです。

データソース: YouTube、トークショーなど
特徴:
- マルチモーダル: 映像だけでなく、音声データも含まれている。
- 複合感情ラベル: 「喜びと驚きが混じった顔」のように、複数の感情が同時に存在する場合のラベル（例：「怒り＋嫌悪」）も付与。
- 感情記述テキスト: 「彼は安堵のため息をつきながら、眉をひそめた」のように、感情や状況を文章で説明したテキストが英語と中国語で付与。
ラベリング:
- 11人の熟練アノテーター
- 各動画に対して11感情カテゴリのスコア（0〜1）を付ける。
- Expectation-Maximization (EM) アルゴリズムを使用し、各アノテーターの信頼度を推定。「その感情が正しく付与された確率（信頼度α）」と「誤って付与されなかった確率（信頼度β）」を算出。
ライセンス: 非営利の研究目的のみ
ソース
以上のデータは全て感情ラベルとして7つの基本感情（怒り、嫌悪、恐怖、喜び、中立、悲しみ、驚き）を採用している。

主要データセット比較まとめ

データセット	発表年	データソース	特徴	ライセンス
AFEW	2012	映画	"In the Wild"の先駆け	非営利のみ
CAER	2019	テレビ番組	大規模、商用利用可	公開
DFEW	2020	映画	多様な撮影条件（照明、背景など）	非営利のみ
FERV39K	2022	様々	シーン（場面）の概念を導入	非営利のみ
MAFW	2022	様々	音声、複合感情、テキスト記述付き	非営利のみ

まとめ

顔表情認識のデータセットは、単に「自然な環境」で撮影するだけでなく、

どんな場面（シーン）で (FERV39K)
複数の感情が混ざっていないか (MAFW)
音声や行動など、他の情報とどう関係しているか (MAFW)

といった、より文脈を重視する方向に発展していることがわかりました。

また、ほとんどの最新データセットが研究目的限定であり、ビジネスで活用するにはまだハードルがあるのが現状です。

今後は、ライセンスの問題をクリアしつつ、さらに多様な人種、文化、年齢層をカバーし、より複雑な感情を捉えられるデータセットが登場することが期待されます。

これらのデータセットを用いた技術発展が楽しみですね。

(注)間違いが無いよう論文を読みながらブログの内容を執筆していますが、正確な情報を知りたい場合は必ず該当の論文を読んでください。