ブログ

Blog

DGX SparkでDocker+GPUを用いてtorchaudioを動かす方法

はじめまして！2024年10月から株式会社Quixotiksでインターンをしている深澤です。現在は NVIDIA DGX Spark を使用して音声認識(ASR)に関する業務に携わっています。ローカル ASR を Docker + GPU で動かす際に PyTorch の互換性エラーで少しハマったので、原因と解決方法をメモとして残します。同じ状況の方の参考になれば幸いです！背景ローカル ASRを Docker 上で GPU を利用して動かす際、 pip install torchaudio を導入したタイミングで互換性エラーが発生： NVIDIA GB10 with CUDA capability sm_121 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_80 sm_86 sm_90 compute_90. エラーの原因 pip install tor

Shunsuke Fukazawa

1月6日読了時間: 2分

日本人・東アジア人特化の表情データセット

こんにちは、Quixotiksインターンの浅沼です。前回の記事では、AIの表情認識データセットでは外れ値である日本人・高齢者の画像について記述させ、その難しさを体感しました。そこで今回は、こうした日本人（アジア人）や高齢者に特化したデータセットにはどのようなものがあるのかを調査しまとめました。最初のブログ記事に書いた通り、表情認識データセットは撮影された環境によって大きく2種類に分けられます。 Controlled: 実験室など、管理された環境で撮影されたデータ。表情やラベルの質は高いですが、背景やポーズなどが画一的になる傾向があります。 In-the-Wild: 映画やインターネットなど、実世界の様々な状況から収集されたデータ。より自然で多様な表情が含まれます。今回はこの2つの分類に沿って、合計4つのデータセットをご紹介します。【Controlled】管理環境で撮影されたデータセット ATR Facial Expression Image Database (2006) データソース : 実験室で撮影（動画、静止画）特徴 :..

Haruka Asanuma

2025年10月29日読了時間: 4分

AIは"おじいちゃんの渋い顔"をどう解釈する？VLMの表情認識をアジア人高齢者で検証

こんにちは、Quixotiksインターンの浅沼です。前回のブログでは、VLM（大規模視覚言語モデル）であるGeminiとGPTが、画像内の人物の表情をどの程度読み取れるかについて検証しました。その結果、ポジティブかネガティブかといった、表情の大まかな方向性は捉えられることが分かりました。ただ、前回のデータセットは白人や若年層の画像が中心でした。AI開発で使われるデータセットの多くがそうであるように、そこには偏りが存在します。そこで今回は、ある意味でデータセットの「外れ値」とも言えるアジア人（日本人）・高齢者の表情認識について、最新のVLMがどのような精度を示すのか追加で検証してみることにしました。実験の概要使用モデル : Gemini-2.5-flash Gemini-2.5-pro gpt-5-2025-08-07 使用画像 : フリー素材サイト「ぱくたそ」様より、高齢者の画像を2枚お借りしました。実験1：新聞を読む男性の表情新聞を真剣に読んでいる男性の画像です。各モデルは、この表情を以下のように記述しました。 gemin

Haruka Asanuma

2025年10月14日読了時間: 6分

VLMは人の表情をどう記述する？GeminiとGPT-4oで比較実験

こんにちは、Quixotiksインターンの浅沼です。今回は、最新のVLM（Vision-Language Model）に画像内の人物の表情を自由に記述させ、その能力を検証した実験結果を報告します。前回のブログで、モデルはIn the...

Haruka Asanuma

2025年10月3日読了時間: 13分

​ブログ

Blog

DGX SparkでDocker+GPUを用いてtorchaudioを動かす方法

日本人・東アジア人特化の表情データセット

AIは"おじいちゃんの渋い顔"をどう解釈する？VLMの表情認識をアジア人高齢者で検証

VLMは人の表情をどう記述する？GeminiとGPT-4oで比較実験

ブログ