表情認識データセットの代表的な分類：Controlled と In the Wild

2025-08-16

Haruka Asanuma

初めまして、2024年10月からQuixotiksでインターンをしている浅沼です。これまでリサーチ業務に携わってきましたが、そのサーベイ内容をこれから記事にして共有していきたいと思います。

第一弾の今回は、人工知能が人間の表情を感情ラベルに分類するために使う「表情認識データセット」についてです。データセットには画像か動画かといった分類方法もありますが、今回は特にその性質を決定づける「Controlled」と「In the Wild」という２つの重要な違いに焦点を当てて解説します。

表情認識データセットの「２つの種類」

AIが表情を学ぶためのデータセットは、その作られ方によって大きく2種類に分けられます。それは、「管理された実験室」で作られるデータと、「ありのままの日常」から集められるデータです。これらをControlledとIn the Wild (Uncontrolled)などと呼びます。

それでは、それぞれの特徴と、代表的なデータセットを見ていきましょう。

Controlledデータセットは、研究者が用意した画一的な環境下で、参加者に特定の表情をしてもらって撮影したものです。

特徴:
- 背景は白やグレーの無地
- 被験者はカメラの正面を向いている
- 「笑ってください」といった指示に基づく演技表情
- 照明などの条件が一定でノイズが少ない
代表例: CK+ (The Extended Cohn-Kanade Dataset)
✅ メリット:
- データが非常にクリーンで、表情と顔の筋肉の動きの関係など、基礎的な研究に適しています。
- ラベルの精度が非常に高いです。
❌ デメリット:
- あくまで演技の表情なので、私たちが日常で見せる自然な感情表現とは乖離があります。
- このデータだけで学習したAIは、リアルな世界の多様な表情に対応するのが難しいです。

Controlledデータセットの限界を超えるため、現実世界からデータを集めようという動きから生まれたのがIn the Wildデータセットです。

特徴:
- 映画、テレビ番組、YouTubeなど、様々な映像から切り取られる
- 顔の向き、光の当たり方、背景が多種多様
- 演技ではない、自然発生的な表情が豊富に含まれる
代表例: AFEW, DFEW, CAER, FERV39K, MAFW など

✅ メリット:

より実践的で、現実世界で使える表情認識モデルの開発に不可欠です。
隠れた顔、様々な角度、複雑な照明下での認識精度向上に繋がります。
❌ デメリット (課題):
- データにノイズ（背景、遮蔽物など）が多く、扱いや学習が難しいです。
- 「今のは本当に喜びの表情か？」など、感情のラベリングが非常に難しいです。ラベルをつける人と実際に表情を浮かべた人物が異なるため、正しい感情ラベリングができているか不明。

今回は、表情認識データセットの大きな分類軸であるControlledとIn the Wildについて解説しました。どちらが良い・悪いというわけではなく、研究の目的に応じて両方のデータセットが重要な役割を果たしています。

次回は、「In the Wild」データセットの歴史について、詳しく掘り下げていきたいと思います。

‍

More Blogs

March 23, 2026

"In the Wild"・動画の表情認識データセット

March 11, 2026

DGX Spark（sm_121）でtorchaudioを動かす

March 11, 2026

【MLflow】Tailscale + AWS EC2/S3で作る、セキュアなLLM学習管理環境の構築ガイド

お問い合わせ