初めまして、2024年10月からQuixotiksでインターンをしている浅沼です。 これまでリサーチ業務に携わってきましたが、そのサーベイ内容をこれから記事にして共有していきたいと思います。
第一弾の今回は、人工知能が人間の表情を感情ラベルに分類するために使う「表情認識データセット」についてです。データセットには画像か動画かといった分類方法もありますが、今回は特にその性質を決定づける「Controlled」と「In the Wild」という2つの重要な違いに焦点を当てて解説します。
表情認識データセットの「2つの種類」
AIが表情を学ぶためのデータセットは、その作られ方によって大きく2種類に分けられます。それは、「管理された実験室」で作られるデータと、「ありのままの日常」から集められるデータです。これらをControlledとIn the Wild (Uncontrolled)などと呼びます。
- Controlled: 背景や光、ポーズが決められている。作る表情も研究者側から指定されている。
- In the Wild: 背景も状況もバラバラで、自然な瞬間が切り取られている。
それでは、それぞれの特徴と、代表的なデータセットを見ていきましょう。
Controlledの世界:管理された実験室での表情
Controlledデータセットは、研究者が用意した画一的な環境下で、参加者に特定の表情をしてもらって撮影したものです。
- 特徴:
- 背景は白やグレーの無地
- 被験者はカメラの正面を向いている
- 「笑ってください」といった指示に基づく演技表情
- 照明などの条件が一定でノイズが少ない
- 代表例: CK+ (The Extended Cohn-Kanade Dataset)
- ✅ メリット:
- データが非常にクリーンで、表情と顔の筋肉の動きの関係など、基礎的な研究に適しています。
- ラベルの精度が非常に高いです。
- ❌ デメリット:
- あくまで演技の表情なので、私たちが日常で見せる自然な感情表現とは乖離があります。
- このデータだけで学習したAIは、リアルな世界の多様な表情に対応するのが難しいです。
In the Wildの世界:日常での表情
Controlledデータセットの限界を超えるため、現実世界からデータを集めようという動きから生まれたのがIn the Wildデータセットです。
- 特徴:
- 映画、テレビ番組、YouTubeなど、様々な映像から切り取られる
- 顔の向き、光の当たり方、背景が多種多様
- 演技ではない、自然発生的な表情が豊富に含まれる
- 代表例: AFEW, DFEW, CAER, FERV39K, MAFW など
✅ メリット:
- より実践的で、現実世界で使える表情認識モデルの開発に不可欠です。
- 隠れた顔、様々な角度、複雑な照明下での認識精度向上に繋がります。
- ❌ デメリット (課題):
- データにノイズ(背景、遮蔽物など)が多く、扱いや学習が難しいです。
- 「今のは本当に喜びの表情か?」など、感情のラベリングが非常に難しいです。ラベルをつける人と実際に表情を浮かべた人物が異なるため、正しい感情ラベリングができているか不明。
まとめ:データセット早見表
| 特性 |
Controlled |
In the Wild (Uncontrolled) |
| 環境 |
実験室など、管理された環境 |
日常生活、映画、Web動画など |
| 表情 |
指示された演技表情 |
自然発生的な表情 |
| 撮影条件 |
正面、無背景、均一な照明 |
様々な角度、複雑な背景、多様な照明 |
| データ |
クリーンで扱いやすい |
ノイズが多く複雑 |
| 得意なこと |
基礎研究、顔の動きの分析 |
実社会での応用、頑健なモデル開発 |
| 課題 |
現実世界との乖離 |
ラベリングの難しさ |
今回は、表情認識データセットの大きな分類軸であるControlledとIn the Wildについて解説しました。 どちらが良い・悪いというわけではなく、研究の目的に応じて両方のデータセットが重要な役割を果たしています。
次回は、「In the Wild」データセットの歴史について、詳しく掘り下げていきたいと思います。