top of page
検索

日本人・東アジア人特化の表情データセット

  • Haruka Asanuma
  • 10月29日
  • 読了時間: 4分

こんにちは、Quixotiksインターンの浅沼です。

前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。

そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。

最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます。

  • Controlled: 実験室など、管理された環境で撮影されたデータ。表情やラベルの質は高いですが、背景やポーズなどが画一的になる傾向があります。

  • In-the-Wild: 映画やインターネットなど、実世界の様々な状況から収集されたデータ。より自然で多様な表情が含まれます。

今回はこの2つの分類に沿って、合計4つのデータセットをご紹介します。

【Controlled】管理環境で撮影されたデータセット

ATR Facial Expression Image Database (2006)

  • データソース: 実験室で撮影(動画、静止画)

  • 特徴:

    • 20歳代から30歳代前半、演劇などで表情形成に関する基礎的な訓練を受けている日本人10名(男6人、女4人)が指示された表情を表出

    • 正面顔だけでなく視線や顔向きを変化させて撮影

  • ラベリング:

    • 真顔を含め10種類の感情ラベル(真顔・喜び(開口)・ 喜び(閉口)・悲しみ・驚き・怒り(開口)・怒り(閉口)・嫌悪・軽蔑・恐れ)

    • 27名(大学生)がラベル付

    • アノテーションの詳細は不明

  • ライセンス: 商用利用は問い合わせ

  • ソース:https://www.atr-p.com/products/face-db.html

感情の次元・カテゴリモデルに基づく表情データベース (2018)

  • データソース: 実験室で撮影(動画、静止画)

  • 特徴:

    • 20~40歳(平均年齢34.25歳、標準偏差5.47)の8名(男性4名、女性4名)が表情表出

    • 状況を想像して自然に表情を作るイマジナリー法、顔の筋肉運動を意識的に操作して表情を作るFacial Action Coding System法の2種類で表情を再現

  • ラベリング:

    • 驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の7感情

    • 平均年齢21.33歳(標準偏差2.39)の39名(男性19名、女性20名)

  • ライセンス: 学術・研究開発目的のみ

  • ソース:https://www.tandfonline.com/doi/full/10.1080/02699931.2017.1419936#abstract

高齢者に特化した表情データベース

  • データソース: 実験室で撮影(動画、静止画)

  • 特徴:

    • 高齢者111名(男性56名,女性55名,73.2±4.6歳)の動画を収録

    • 正面カメラで撮影した動画から,最も表情が強く表出されたフレームを静止画として抽出し

  • ラベリング:

    • 8つの感情(喜び・悲しみ・恐怖・驚き・怒り・嫌悪・興奮・リラックス)と無表情

    • 36名の協力者(男性18名,女性18名,年齢:39.3±11.6歳)

  • ライセンス: 商用利用不可、研究利用のみ

  • ソース:https://www.nii.ac.jp/dsc/idr/rdata/NUFDB/

【In-the-Wild】実世界のデータセット

東アジア人の多様な表情を集めた大規模データベース (2022)

  • データソース: 映画、Web(画像)

  • 特徴:

    • 中国、日本、韓国の113本の映画(過去30年間)と5つの検索エンジン(Google, Bing, Baidu, Goo, NAVER)を利用し、映画から約450,000フレーム、検索から50,000枚の画像を収集。

  • ラベリング:

    • 驚き・恐怖・悲しみ・怒り・嫌悪・幸福・中立の7感情

    • 3名すべてのアノテーターが同じ表情ラベルに同意した画像のみを採用。

    • 最終的に、管理者がすべてのラベルを再確認し、疑義があれば画像を削除。

    • つまり、各画像に対して4者(アノテーター3名+管理者)の合意がある場合のみ採用。

  • ライセンス: 著者にリクエストすることで入手可能。商用利用可能かは不明。

  • ソース:https://www.mdpi.com/1424-8220/22/21/8089

まとめ

今回は、日本人(アジア人)や高齢者に特化した表情認識データセットを4つご紹介しました。

実験環境で撮影された「Controlled」のデータは、表情の質がコントロールされている一方、実世界の多様な状況を反映しきれないという側面があります。それに対し、映画などから収集された「In-the-Wild」のデータは、より自然な表情をAIに学習させられる可能性を秘めています。

調査した限りでは、アジア人や高齢者を対象とした「In-the-Wild」の動画データセットはまだ発展途上のようです。AIがより多様な人々の感情を正確に理解するためには、こうしたデータセットのさらなる充実が不可欠だと感じました。

今後の研究の進展に期待したいと思います!

 
 
 

コメント


Quixotiks-2.png

株式会社 Quixotiks

東京都渋谷区神泉町 20-21 クロスシー渋谷神泉ビル

03-6826-2232

営業時間/平日9:00〜19:00

スク��リーンショット 2024-03-06 17.57.17.png
  • alt.text.label.Facebook

Copyright © 株式会社 Quixotiks All rights Reserved.

bottom of page