表情認識データセットの代表的な分類:Controlled と In the Wild

2025-08-16

Haruka Asanuma

初めまして、2024年10月からQuixotiksでインターンをしている浅沼です。 これまでリサーチ業務に携わってきましたが、そのサーベイ内容をこれから記事にして共有していきたいと思います。

第一弾の今回は、人工知能が人間の表情を感情ラベルに分類するために使う「表情認識データセット」についてです。データセットには画像か動画かといった分類方法もありますが、今回は特にその性質を決定づける「Controlled」と「In the Wild」という2つの重要な違いに焦点を当てて解説します。

表情認識データセットの「2つの種類」

AIが表情を学ぶためのデータセットは、その作られ方によって大きく2種類に分けられます。それは、「管理された実験室」で作られるデータと、「ありのままの日常」から集められるデータです。これらをControlledとIn the Wild (Uncontrolled)などと呼びます。

  • Controlled: 背景や光、ポーズが決められている。作る表情も研究者側から指定されている。
  • In the Wild: 背景も状況もバラバラで、自然な瞬間が切り取られている。

それでは、それぞれの特徴と、代表的なデータセットを見ていきましょう。

Controlledの世界:管理された実験室での表情

Controlledデータセットは、研究者が用意した画一的な環境下で、参加者に特定の表情をしてもらって撮影したものです。

  • 特徴:
    • 背景は白やグレーの無地
    • 被験者はカメラの正面を向いている
    • 「笑ってください」といった指示に基づく演技表情
    • 照明などの条件が一定でノイズが少ない
  • 代表例: CK+ (The Extended Cohn-Kanade Dataset)
  • ✅ メリット:
    • データが非常にクリーンで、表情と顔の筋肉の動きの関係など、基礎的な研究に適しています。
    • ラベルの精度が非常に高いです。
  • デメリット:
    • あくまで演技の表情なので、私たちが日常で見せる自然な感情表現とは乖離があります。
    • このデータだけで学習したAIは、リアルな世界の多様な表情に対応するのが難しいです。

In the Wildの世界:日常での表情

Controlledデータセットの限界を超えるため、現実世界からデータを集めようという動きから生まれたのがIn the Wildデータセットです。

  • 特徴:
    • 映画、テレビ番組、YouTubeなど、様々な映像から切り取られる
    • 顔の向き、光の当たり方、背景が多種多様
    • 演技ではない、自然発生的な表情が豊富に含まれる
  • 代表例: AFEW, DFEW, CAER, FERV39K, MAFW など

✅ メリット:

  • より実践的で、現実世界で使える表情認識モデルの開発に不可欠です。
  • 隠れた顔、様々な角度、複雑な照明下での認識精度向上に繋がります。
  • デメリット (課題):
    • データにノイズ(背景、遮蔽物など)が多く、扱いや学習が難しいです。
    • 「今のは本当に喜びの表情か?」など、感情のラベリングが非常に難しいです。ラベルをつける人と実際に表情を浮かべた人物が異なるため、正しい感情ラベリングができているか不明。

まとめ:データセット早見表

特性 Controlled In the Wild (Uncontrolled)
環境 実験室など、管理された環境 日常生活、映画、Web動画など
表情 指示された演技表情 自然発生的な表情
撮影条件 正面、無背景、均一な照明 様々な角度、複雑な背景、多様な照明
データ クリーンで扱いやすい ノイズが多く複雑
得意なこと 基礎研究、顔の動きの分析 実社会での応用、頑健なモデル開発
課題 現実世界との乖離 ラベリングの難しさ

今回は、表情認識データセットの大きな分類軸であるControlledとIn the Wildについて解説しました。 どちらが良い・悪いというわけではなく、研究の目的に応じて両方のデータセットが重要な役割を果たしています。

次回は、「In the Wild」データセットの歴史について、詳しく掘り下げていきたいと思います。