top of page
ブログ
Blog
日本人・東アジア人特化の表情データセット
こんにちは、Quixotiksインターンの浅沼です。 前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。 そこで今回は、こうした日本人(アジア人)や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。 最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます。 Controlled: 実験室など、管理された環境で撮影されたデータ。表情やラベルの質は高いですが、背景やポーズなどが画一的になる傾向があります。 In-the-Wild: 映画やインターネットなど、実世界の様々な状況から収集されたデータ。より自然で多様な表情が含まれます。 今回はこの2つの分類に沿って、合計4つのデータセットをご紹介します。 【Controlled】管理環境で撮影されたデータセット ATR Facial Expression Image Database (2006) データソース : 実験室で撮影(動画、静止画) 特徴 :..
Haruka Asanuma
5 日前読了時間: 4分


AIは"おじいちゃんの渋い顔"をどう解釈する?VLMの表情認識をアジア人高齢者で検証
こんにちは、Quixotiksインターンの浅沼です。 前回のブログでは、VLM(大規模視覚言語モデル)であるGeminiとGPTが、画像内の人物の表情をどの程度読み取れるかについて検証しました。その結果、 ポジティブかネガティブかといった、表情の大まかな方向性は捉えられる ことが分かりました。 ただ、前回のデータセットは白人や若年層の画像が中心でした。AI開発で使われるデータセットの多くがそうであるように、そこには偏りが存在します。 そこで今回は、ある意味でデータセットの「外れ値」とも言える アジア人(日本人)・高齢者 の表情認識について、最新のVLMがどのような精度を示すのか追加で検証してみることにしました。 実験の概要 使用モデル : Gemini-2.5-flash Gemini-2.5-pro gpt-5-2025-08-07 使用画像 : フリー素材サイト「ぱくたそ」様より、高齢者の画像を2枚お借りしました。 実験1:新聞を読む男性の表情 新聞を真剣に読んでいる男性の画像です。各モデルは、この表情を以下のように記述しました。 gemin
Haruka Asanuma
10月14日読了時間: 6分


VLMは人の表情をどう記述する?GeminiとGPT-4oで比較実験
こんにちは、Quixotiksインターンの浅沼です。 今回は、最新のVLM(Vision-Language Model)に画像内の人物の表情を自由に記述させ、その能力を検証した実験結果を報告します。 前回のブログで、モデルはIn the...
Haruka Asanuma
10月3日読了時間: 13分


In the Wildのデータセットで表情分類
こんにちは、Quixotiksインターンの浅沼です。今回は、前回調査したIn the Wildデータセットを使って、最新のVLM(Vision-Language Model)であるGeminiとGPTがどこまで表情認識できるのか、その実験結果を報告します。...
Haruka Asanuma
9月25日読了時間: 3分
"In the Wild"・動画の表情認識データセット
こんにちは、Quixotiksインターンの浅沼です。 今回も顔表情認識(Facial Expression Recognition, FER)に関する技術サーベイの報告を行います。 前回の記事では、表情認識データセットの「Controlled」と「In the...
Haruka Asanuma
9月22日読了時間: 5分
表情認識データセットの代表的な分類:Controlled と In the Wild
初めまして、2024年10月からQuixotiksでインターンをしている浅沼です。 これまでリサーチ業務に携わってきましたが、そのサーベイ内容をこれから記事にして共有していきたいと思います。 第一弾の今回は、人工知能が人間の表情を感情ラベルに分類するために使う「表情認識デー...
Haruka Asanuma
9月16日読了時間: 3分
bottom of page