日本人・東アジア人特化の表情データセット

2025-10-29

Haruka Asanuma

こんにちは、Quixotiksインターンの浅沼です。

前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。

そこで今回は、こうした日本人（アジア人）や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。

最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます。

今回はこの2つの分類に沿って、合計4つのデータセットをご紹介します。

【Controlled】管理環境で撮影されたデータセット

データソース: 実験室で撮影（動画、静止画）
特徴:
- 20歳代から30歳代前半、演劇などで表情形成に関する基礎的な訓練を受けている日本人10名（男6人、女4人）が指示された表情を表出
- 正面顔だけでなく視線や顔向きを変化させて撮影
ラベリング:
- 真顔を含め10種類の感情ラベル（真顔・喜び(開口)・喜び(閉口)・悲しみ・驚き・怒り(開口)・怒り(閉口)・嫌悪・軽蔑・恐れ）
- 27名（大学生）がラベル付
- アノテーションの詳細は不明
ライセンス: 商用利用は問い合わせ
ソース：https://www.atr-p.com/products/face-db.html

データソース: 実験室で撮影（動画、静止画）
特徴:
- 20～40歳（平均年齢34.25歳、標準偏差5.47）の8名（男性4名、女性4名）が表情表出
- 状況を想像して自然に表情を作るイマジナリー法、顔の筋肉運動を意識的に操作して表情を作るFacial Action Coding System法の2種類で表情を再現
ラベリング:
- 驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の７感情
- 平均年齢21.33歳（標準偏差2.39）の39名（男性19名、女性20名）
ライセンス: 学術・研究開発目的のみ
ソース：https://www.tandfonline.com/doi/full/10.1080/02699931.2017.1419936#abstract

データソース: 実験室で撮影（動画、静止画）
特徴:
- 高齢者111名（男性56名，女性55名，73.2±4.6歳）の動画を収録
- 正面カメラで撮影した動画から，最も表情が強く表出されたフレームを静止画として抽出し
ラベリング:
- 8つの感情（喜び・悲しみ・恐怖・驚き・怒り・嫌悪・興奮・リラックス）と無表情
- 36名の協力者(男性18名，女性18名，年齢:39.3±11.6歳)
ライセンス: 商用利用不可、研究利用のみ
ソース：https://www.nii.ac.jp/dsc/idr/rdata/NUFDB/

【In-the-Wild】実世界のデータセット

データソース: 映画、Web（画像）
特徴:
- 中国、日本、韓国の113本の映画（過去30年間）と5つの検索エンジン（Google, Bing, Baidu, Goo, NAVER）を利用し、映画から約450,000フレーム、検索から50,000枚の画像を収集。
ラベリング:
- 驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の７感情
- 3名すべてのアノテーターが同じ表情ラベルに同意した画像のみを採用。
- 最終的に、管理者がすべてのラベルを再確認し、疑義があれば画像を削除。
- つまり、各画像に対して4者（アノテーター3名＋管理者）の合意がある場合のみ採用。
ライセンス: 著者にリクエストすることで入手可能。商用利用可能かは不明。
ソース：https://www.mdpi.com/1424-8220/22/21/8089

今回は、日本人（アジア人）や高齢者に特化した表情認識データセットを4つご紹介しました。

実験環境で撮影された「Controlled」のデータは、表情の質がコントロールされている一方、実世界の多様な状況を反映しきれないという側面があります。それに対し、映画などから収集された「In-the-Wild」のデータは、より自然な表情をAIに学習させられる可能性を秘めています。

調査した限りでは、アジア人や高齢者を対象とした「In-the-Wild」の動画データセットはまだ発展途上のようです。AIがより多様な人々の感情を正確に理解するためには、こうしたデータセットのさらなる充実が不可欠だと感じました。

今後の研究の進展に期待したいと思います！

More Blogs

March 23, 2026

"In the Wild"・動画の表情認識データセット

March 11, 2026

DGX Spark（sm_121）でtorchaudioを動かす

March 11, 2026

【MLflow】Tailscale + AWS EC2/S3で作る、セキュアなLLM学習管理環境の構築ガイド

お問い合わせ