日本人・東アジア人特化の表情データセット
- Haruka Asanuma
- 10月29日
- 読了時間: 4分
こんにちは、Quixotiksインターンの浅沼です。
前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。
そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。
最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます。
Controlled: 実験室など、管理された環境で撮影されたデータ。表情やラベルの質は高いですが、背景やポーズなどが画一的になる傾向があります。
In-the-Wild: 映画やインターネットなど、実世界の様々な状況から収集されたデータ。より自然で多様な表情が含まれます。
今回はこの2つの分類に沿って、合計4つのデータセットをご紹介します。
【Controlled】管理環境で撮影されたデータセット
ATR Facial Expression Image Database (2006)
データソース: 実験室で撮影(動画、静止画)
特徴:
20歳代から30歳代前半、演劇などで表情形成に関する基礎的な訓練を受けている日本人10名(男6人、女4人)が指示された表情を表出
正面顔だけでなく視線や顔向きを変化させて撮影
ラベリング:
真顔を含め10種類の感情ラベル(真顔・喜び(開口)・ 喜び(閉口)・悲しみ・驚き・怒り(開口)・怒り(閉口)・嫌悪・軽蔑・恐れ)
27名(大学生)がラベル付
アノテーションの詳細は不明
ライセンス: 商用利用は問い合わせ
感情の次元・カテゴリモデルに基づく表情データベース (2018)
データソース: 実験室で撮影(動画、静止画)
特徴:
20~40歳(平均年齢34.25歳、標準偏差5.47)の8名(男性4名、女性4名)が表情表出
状況を想像して自然に表情を作るイマジナリー法、顔の筋肉運動を意識的に操作して表情を作るFacial Action Coding System法の2種類で表情を再現
ラベリング:
驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の7感情
平均年齢21.33歳(標準偏差2.39)の39名(男性19名、女性20名)
ライセンス: 学術・研究開発目的のみ
ソース:https://www.tandfonline.com/doi/full/10.1080/02699931.2017.1419936#abstract
高齢者に特化した表情データベース
データソース: 実験室で撮影(動画、静止画)
特徴:
高齢者111名(男性56名,女性55名,73.2±4.6歳)の動画を収録
正面カメラで撮影した動画から,最も表情が強く表出されたフレームを静止画として抽出し
ラベリング:
8つの感情(喜び・悲しみ・恐怖・驚き・怒り・嫌悪・興奮・リラックス)と無表情
36名の協力者(男性18名,女性18名,年齢:39.3±11.6歳)
ライセンス: 商用利用不可、研究利用のみ
【In-the-Wild】実世界のデータセット
東アジア人の多様な表情を集めた大規模データベース (2022)
データソース: 映画、Web(画像)
特徴:
中国、日本、韓国の113本の映画(過去30年間)と5つの検索エンジン(Google, Bing, Baidu, Goo, NAVER)を利用し、映画から約450,000フレーム、検索から50,000枚の画像を収集。
ラベリング:
驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の7感情
3名すべてのアノテーターが同じ表情ラベルに同意した画像のみを採用。
最終的に、管理者がすべてのラベルを再確認し、疑義があれば画像を削除。
つまり、各画像に対して4者(アノテーター3名+管理者)の合意がある場合のみ採用。
ライセンス: 著者にリクエストすることで入手可能。商用利用可能かは不明。
まとめ
今回は、日本人(アジア人)や高齢者に特化した表情認識データセットを4つご紹介しました。
実験環境で撮影された「Controlled」のデータは、表情の質がコントロールされている一方、実世界の多様な状況を反映しきれないという側面があります。それに対し、映画などから収集された「In-the-Wild」のデータは、より自然な表情をAIに学習させられる可能性を秘めています。
調査した限りでは、アジア人や高齢者を対象とした「In-the-Wild」の動画データセットはまだ発展途上のようです。AIがより多様な人々の感情を正確に理解するためには、こうしたデータセットのさらなる充実が不可欠だと感じました。
今後の研究の進展に期待したいと思います!



コメント