こんにちは、Quixotiksインターンの浅沼です。
前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。
そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。
最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます。
- Controlled: 実験室など、管理された環境で撮影されたデータ。表情やラベルの質は高いですが、背景やポーズなどが画一的になる傾向があります。
- In-the-Wild: 映画やインターネットなど、実世界の様々な状況から収集されたデータ。より自然で多様な表情が含まれます。
今回はこの2つの分類に沿って、合計4つのデータセットをご紹介します。
【Controlled】管理環境で撮影されたデータセット
ATR Facial Expression Image Database (2006)
- データソース: 実験室で撮影(動画、静止画)
- 特徴:
- 20歳代から30歳代前半、演劇などで表情形成に関する基礎的な訓練を受けている日本人10名(男6人、女4人)が指示された表情を表出
- 正面顔だけでなく視線や顔向きを変化させて撮影
- ラベリング:
- 真顔を含め10種類の感情ラベル(真顔・喜び(開口)・ 喜び(閉口)・悲しみ・驚き・怒り(開口)・怒り(閉口)・嫌悪・軽蔑・恐れ)
- 27名(大学生)がラベル付
- アノテーションの詳細は不明
- ライセンス: 商用利用は問い合わせ
- ソース:https://www.atr-p.com/products/face-db.html
感情の次元・カテゴリモデルに基づく表情データベース (2018)
高齢者に特化した表情データベース
- データソース: 実験室で撮影(動画、静止画)
- 特徴:
- 高齢者111名(男性56名,女性55名,73.2±4.6歳)の動画を収録
- 正面カメラで撮影した動画から,最も表情が強く表出されたフレームを静止画として抽出し
- ラベリング:
- 8つの感情(喜び・悲しみ・恐怖・驚き・怒り・嫌悪・興奮・リラックス)と無表情
- 36名の協力者(男性18名,女性18名,年齢:39.3±11.6歳)
- ライセンス: 商用利用不可、研究利用のみ
- ソース:https://www.nii.ac.jp/dsc/idr/rdata/NUFDB/
【In-the-Wild】実世界のデータセット
東アジア人の多様な表情を集めた大規模データベース (2022)
- データソース: 映画、Web(画像)
- 特徴:
- 中国、日本、韓国の113本の映画(過去30年間)と5つの検索エンジン(Google, Bing, Baidu, Goo, NAVER)を利用し、映画から約450,000フレーム、検索から50,000枚の画像を収集。
- ラベリング:
- 驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の7感情
- 3名すべてのアノテーターが同じ表情ラベルに同意した画像のみを採用。
- 最終的に、管理者がすべてのラベルを再確認し、疑義があれば画像を削除。
- つまり、各画像に対して4者(アノテーター3名+管理者)の合意がある場合のみ採用。
- ライセンス: 著者にリクエストすることで入手可能。商用利用可能かは不明。
- ソース:https://www.mdpi.com/1424-8220/22/21/8089
まとめ
今回は、日本人(アジア人)や高齢者に特化した表情認識データセットを4つご紹介しました。
実験環境で撮影された「Controlled」のデータは、表情の質がコントロールされている一方、実世界の多様な状況を反映しきれないという側面があります。それに対し、映画などから収集された「In-the-Wild」のデータは、より自然な表情をAIに学習させられる可能性を秘めています。
調査した限りでは、アジア人や高齢者を対象とした「In-the-Wild」の動画データセットはまだ発展途上のようです。AIがより多様な人々の感情を正確に理解するためには、こうしたデータセットのさらなる充実が不可欠だと感じました。
今後の研究の進展に期待したいと思います!