top of page
検索

表情認識データセットの代表的な分類:Controlled と In the Wild

  • Haruka Asanuma
  • 9月16日
  • 読了時間: 3分

初めまして、2024年10月からQuixotiksでインターンをしている浅沼です。 これまでリサーチ業務に携わってきましたが、そのサーベイ内容をこれから記事にして共有していきたいと思います。

第一弾の今回は、人工知能が人間の表情を感情ラベルに分類するために使う「表情認識データセット」についてです。データセットには画像か動画かといった分類方法もありますが、今回は特にその性質を決定づける「Controlled」と「In the Wild」という2つの重要な違いに焦点を当てて解説します。


表情認識データセットの「2つの種類」

AIが表情を学ぶためのデータセットは、その作られ方によって大きく2種類に分けられます。それは、「管理された実験室」で作られるデータと、「ありのままの日常」から集められるデータです。これらをControlledIn the Wild (Uncontrolled)などと呼びます。

  • Controlled: 背景や光、ポーズが決められている。作る表情も研究者側から指定されている。

  • In the Wild: 背景も状況もバラバラで、自然な瞬間が切り取られている。

それでは、それぞれの特徴と、代表的なデータセットを見ていきましょう。


Controlledの世界:管理された実験室での表情

Controlledデータセットは、研究者が用意した画一的な環境下で、参加者に特定の表情をしてもらって撮影したものです。

  • 特徴:

    • 背景は白やグレーの無地

    • 被験者はカメラの正面を向いている

    • 「笑ってください」といった指示に基づく演技表情

    • 照明などの条件が一定でノイズが少ない

  • 代表例: CK+ (The Extended Cohn-Kanade Dataset)

  • ✅ メリット:

    • データが非常にクリーンで、表情と顔の筋肉の動きの関係など、基礎的な研究に適しています。

    • ラベルの精度が非常に高いです。

  •  デメリット:

    • あくまで演技の表情なので、私たちが日常で見せる自然な感情表現とは乖離があります。

    • このデータだけで学習したAIは、リアルな世界の多様な表情に対応するのが難しいです。

In the Wildの世界:日常での表情

Controlledデータセットの限界を超えるため、現実世界からデータを集めようという動きから生まれたのがIn the Wildデータセットです。

  • 特徴:

    • 映画、テレビ番組、YouTubeなど、様々な映像から切り取られる

    • 顔の向き、光の当たり方、背景が多種多様

    • 演技ではない、自然発生的な表情が豊富に含まれる

  • 代表例: AFEW, DFEW, CAER, FERV39K, MAFW など

✅ メリット:

  • より実践的で、現実世界で使える表情認識モデルの開発に不可欠です。

  • 隠れた顔、様々な角度、複雑な照明下での認識精度向上に繋がります。

  •  デメリット (課題):

    • データにノイズ(背景、遮蔽物など)が多く、扱いや学習が難しいです。

    • 「今のは本当に喜びの表情か?」など、感情のラベリングが非常に難しいです。ラベルをつける人と実際に表情を浮かべた人物が異なるため、正しい感情ラベリングができているか不明。

まとめ:データセット早見表

特性

Controlled

In the Wild (Uncontrolled)

環境

実験室など、管理された環境

日常生活、映画、Web動画など

表情

指示された演技表情

自然発生的な表情

撮影条件

正面、無背景、均一な照明

様々な角度、複雑な背景、多様な照明

データ

クリーンで扱いやすい

ノイズが多く複雑

得意なこと

基礎研究、顔の動きの分析

実社会での応用、頑健なモデル開発

課題

現実世界との乖離

ラベリングの難しさ

今回は、表情認識データセットの大きな分類軸であるControlledIn the Wildについて解説しました。 どちらが良い・悪いというわけではなく、研究の目的に応じて両方のデータセットが重要な役割を果たしています。

次回は、「In the Wild」データセットの歴史について、詳しく掘り下げていきたいと思います。

 
 
 

最新記事

すべて表示
日本人・東アジア人特化の表情データセット

こんにちは、Quixotiksインターンの浅沼です。 前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。 そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。 最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます

 
 
 

コメント


Quixotiks-2.png

株式会社 Quixotiks

東京都渋谷区神泉町 20-21 クロスシー渋谷神泉ビル

03-6826-2232

営業時間/平日9:00〜19:00

スクリーンショット 2024-03-06 17.57.17.png
  • alt.text.label.Facebook

Copyright © 株式会社 Quixotiks All rights Reserved.

bottom of page