インサイト

Few-Shot Object Detection Challenge 3年間の変遷：グローバルビジョンAIの競争構図を読み解く

Superb AI Japan

2026/06/26 | 7 min read

要点

すCVPRを中心に展開されているFew-Shot Object Detection（FSOD）Challengeには、VPLOWワークショップのFoundational FSODと、NTIREワークショップのCD-FSODという二つの系統があります。両者が取り組む課題は近いものの、評価の考え方は異なります。
この3年間の進化の方向性は明確です。自動運転の単一ドメインを対象とした2024年から、20の産業ドメインへ拡張した2025年、さらにファインチューニングを含むトラックとtraining-freeトラックに分化した2026年へと発展しました。「どのモデルを基盤とし、どれだけ迅速かつ軽量に現場へ適応させられるか」が、競争の本質となっています。
3年間のリーダーボードが示した最大の教訓は、汎用モデルのベースラインが産業ドメインで性能を大きく落とす一方、上位を占めたのは「基盤モデル」と「適応システム」を一体として設計したチームだったということです。
競争構図は、中国の産学連携チームが優位に立つ形で展開されてきました。そこに2026年、Superb AIが韓国企業として初めて優勝し、従来の構図に変化をもたらしました。
Superb AIは、上位チームの中で、商用提供されている製品モデル「ZERO」を使用して参加した唯一のチームです。研究用途のモデルを組み合わせたシステムではなく、実際に提供中のモデルで総合1位を獲得したことも、今回の優勝が持つ重要な意味の一つです。

Few-Shot Object Detectionとは、1クラスあたり約10枚という少数のサンプルだけで、AIが新しい物体を認識できるようにする技術で。

産業AI導入における最大のボトルネックの一つであるデータコストに正面から取り組む分野であり、ここ3年間で、グローバルな研究競争が最も活発な領域の一つとなりました。

本記事では、CVPRを中心に形成されてきたFSOD Challengeのエコシステムを3年間の流れに沿って整理し、競争構図と技術的な方法論のトレンドを読み解きます。

なぜ今、このチャレンジなのか：フィジカルAI時代のデータボトルネック

このチャレンジシリーズが、ここ3年間で急速に成長した背景には、産業全体における大きな変化があります。

AIが画面上のテキスト処理を超え、ロボット、自動運転、スマートファクトリーなど、物理世界へと展開する「フィジカルAI」の時代が始まり、ビジョンAIに求められる条件が根本的に変わったためです。

物理世界に存在する物体は極めて多様で、現場ごとに異なり、絶えず変化します。

ロボットが今後遭遇するすべての部品や、検査ラインに現れる可能性のあるすべての欠陥について、あらかじめ数万枚の画像をラベリングして学習させることは、原理的に困難です。

そのため、フィジカルAIの「目」には、初めて見る物体にも少数のサンプルだけで迅速に適応する能力が求められます。

Few-Shot Object Detectionは、まさにその能力を測るための指標です。このチャレンジのリーダーボードが、「フィジカルAI時代の目」をめぐる競争の縮図といえる理由も、ここにあります。

二つのチャレンジ：同じ問い、異なる評価思想

Foundational FSOD Challenge（VPLOWワークショップ）

Foundational FSOD Challengeは、カーネギーメロン大学（CMU）が主催し、2025年からはRoboflowも共同主催しているシリーズです。

このチャレンジは、「基盤モデルはデータアノテーションにおいて人間を代替できるか」という問いから始まりました。

従来のCOCOをベースとするFSODベンチマークでは、最新のビジョン言語モデルが一般的なカテゴリをすでにzero-shotで高精度に検出できるため、モデル間の差を十分に評価できなくなっているという課題がありました。

そこで、任意の事前学習済みモデルを、1クラスあたり10枚のマルチモーダルなサンプル、すなわちテキストと視覚的な例示を用いて対象ドメインへ適応させた上で評価するプロトコルが採用されました。

CD-FSOD Challenge（NTIREワークショップ）

CD-FSOD Challengeは、一般的なデータで学習したモデルが、リモートセンシング画像や水中画像など、学習時とは大きく異なるドメインに適用された際に性能を落とす問題に焦点を当てています。

つまり、クロスドメイン環境における適応能力を評価するチャレンジです。

ソースドメインとターゲットドメインのクラス集合が完全に分離された条件で、1-shot、5-shot、10-shotの性能を合算して評価します。

また、ソースデータの使用を厳格に制限するトラックと、ソースデータを比較的自由に利用できるトラックの両方が運営されています。

要約すると、Foundational FSODは「基盤モデル時代における実践的なFew-Shot評価」を問い、CD-FSODは「ドメインシフトへの耐性」を評価します。

両方のシリーズで最上位に入るチームはごく少数です。これは、この二つの課題を同時に高い水準で解決することが難しいことを示しています。

3年間の進化：単一ドメインから2トラック体制へ

2024年：概念実証

第1回大会は、自動運転データセット「nuImages」という一つのドメインを対象に開催されました。優勝したNJUST KMGのソリューションは、大規模マルチモーダル言語モデルを用いて、カテゴリごとに多様な表現を生成し、その中から最適な表現を選択するアプローチを採用しました。これは、「モデルが理解しやすい言葉に言い換える」という、その後のトレンドの原型を示すものでした。

2025年：ドメインの拡張

評価データセットがRoboflow20-VLへと変更され、チャレンジの規模と難易度が大きく拡張されました。スーパーマーケットの商品、製品欠陥、X線画像、熱画像、航空画像など、20の専門ドメインが評価対象となりました。代表的な汎用モデルであっても、医療画像ではzero-shot精度が2％未満にとどまるほど、難易度の高い評価となりました。2025年は、「一般的なインターネット画像には存在しない世界」に対する適応能力が、本格的に試され始めた年といえます。

2026年：方法論の分化

2026年には、チャレンジが二つのトラックに分かれました。一つは、ファインチューニングを含むあらゆる戦略を認めるOverall Trackです。もう一つは、勾配ベースの学習を禁止し、推論時のin-context promptingのみを認めるIn-Context Prompting Trackです。これは、「追加学習を行わずに適応するモデル」が、独立した研究領域として位置付けられたことを意味します。参加規模も拡大し、Overall Trackだけで17チームが参加し、200件を超える結果が提出されました。

さらに、前年の最高記録を上回らなければ受賞対象にならないという基準が適用されるなど、評価要件も厳格化しました。

競争構図：どのようなチームが参加しているのか

3年間のリーダーボードを重ねて見ることで、競争構図が明確になります。

中国の産学連携チームが示す強さ

2024年の優勝チームであるNJUST（南京理工大学）グループは、3年連続で上位に入った唯一の学術チームです。また、2026年に新設されたIn-Context Prompting Trackの1位と2位も、中国の研究グループが獲得しました。大学と企業が連携した中国の産学連携チームは、二つのチャレンジシリーズにおいて、継続的に上位を占めてきました。

最大の競合、復旦大学・Lenovo産学連携チーム

なかでも、復旦大学とLenovoによるFDUROILab Lenovoは、特に注目すべきチームです。同チームは、2025年のFoundational FSODで2位、2026年のNTIRE CD-FSODで優勝し、さらに2026年のFoundational FSODでも2位を獲得しました。二つのチャレンジシリーズの双方で、継続的に最上位を維持している事実上唯一のチームです。2026年のFoundational FSODで、このチームを2.3ポイント上回ったのがSuperb AIです。

新たな参加者

2026年には、サウジアラビアのテクノロジー・セキュリティ企業が初めて参加しました。これは、中東地域におけるセキュリティやCCTV分野のビジョンAI需要が、グローバルなチャレンジの場にまで広がり始めていることを示す動きと捉えられます。一方で、主催者であるCMUとRoboflowを除くと、欧米の大手テック企業や学術機関は、リーダーボード上でほとんど存在感を示していません。この点も、競争構図における興味深い空白です。

Superb AIの台頭

Superb AIは、2025年の同ワークショップで、Object Instance Detection Challengeの2位とFoundational FSODの4位に同時入賞し、リーダーボード上に登場しました。

その翌年となる2026年には、Foundational FSODのOverall Trackで平均mAP 53.9を記録し、総合1位を獲得しました。

韓国企業がこのチャレンジで優勝するのは、今回が初めてです。

方法論のトレンド：リーダーボードが示す三つの変化

1. 「学習を伴わない適応」の台頭

In-Context Prompting Trackの新設が象徴するように、ファインチューニングを行わず、プロンプトと検索だけでモデルを適応させるtraining-freeアプローチが、独立した研究分野として定着しつつあります。マルチモーダルプロンプトを通じてモデルと「対話する」能力が、そのまま競争力になる流れです。

2. 合成データの有効性を実証

NTIRE 2026のソース制限トラックで優勝したチームは、生成モデルを用いてターゲットドメインの画像を合成し、ビジョン言語モデルによって擬似ラベルを付与するフレームワークを発表しました。実データが不足しているドメインを合成データで補完する戦略が、国際チャレンジにおいても有効であることが示された事例です。

3. 複数のコンポーネントを組み合わせる時代

上位ソリューションの多くは、単一のモデルだけで構成されているわけではありません。複数のビジョン基盤モデルを組み合わせ、データ拡張や推論時の補正戦略を加える、システム設計そのものを競っています。自らチャレンジに参加する代わりに、オープンソースのソリューションを公開し、他チームの上位入賞を支援する「ソリューションプロバイダー」型のモデルも登場しています。

この三つのトレンドに共通する方向性は明確です。競争の中心が、「より大きなモデル」から「より高度で効率的な適応」へと移行しています。

Superb AIの立ち位置：商用モデルで優勝した唯一のチーム

3年間のリーダーボードが示す最大の教訓は、Few-Shot適応の成否が、適応手法だけでなく、「どの基盤モデルから始めるか」に大きく左右されるという点です。

汎用モデルのベースラインが産業ドメインで一桁台の精度まで性能を落とす一方、上位を獲得したのは、基盤モデルと適応システムを一体として設計したチームでした。

適応は技術的な手法ですが、その適応を機能させる土台となるのはモデルそのものです。

この競争構図の中で、Superb AIは独自の立ち位置にあります。

上位チームの多くが、研究用途の複数モデルを組み合わせて参加しているのに対し、Superb AIは、AWS Marketplaceで商用提供されている産業特化型ビジョン基盤モデル「ZERO」を中核に据えて参加した唯一のチームです。

公開された優勝ソリューションのコードも、モデルをAPIサービスとして抽象化する構造を採用しています。

これにより、受賞要件である再現性を確保しながら、製品の知的財産（IP）も保護しています。

研究のために構築されたモデルではなく、実際の製品として提供されているモデルがグローバルなチャレンジで総合1位を獲得したことが、スコアの先にある今回の優勝の意義です。

技術トレンドとの整合性も注目すべき点です。

「学習を伴わない適応」は、ZEROが採用するマルチモーダルプロンプトの方向性と一致します。

「合成データ」は、Superb AIが構築するフィジカルAI向け合成データパイプラインとつながっています。

そして、「より高度で効率的な適応」を競う流れは、優勝ソリューションで採用された軽量な適応システムと直接重なります。

チャレンジのエコシステムが進む方向と、Superb AIの技術ロードマップが、同じ方向を見据えているといえます。

よくあるご質問（FAQ）

Q. Foundational FSODとCD-FSOD Challengeには、どのような違いがありますか？

Foundational FSOD Challengeは、VPLOWワークショップで開催され、基盤モデルを1クラスあたり10枚のマルチモーダルなサンプルによって、多様な産業ドメインへ適応させる能力を評価します。一方、NTIREワークショップのCD-FSOD Challengeは、学習ドメインとは大きく異なるドメインに対する適応能力を評価します。両者が取り組む問題は近いものの、使用するデータセットと評価プロトコルが異なります。

Q. Few-Shot Object Detection分野における最近のトレンドは何ですか？

ファインチューニングを行わず、プロンプトだけで適応するtraining-freeアプローチの台頭、合成データによるドメインギャップの解消、複数のビジョン基盤モデルを組み合わせるシステム設計の競争が、主なトレンドとして挙げられます。共通しているのは、競争の中心が「より大きなモデル」から「より高度で効率的な適応」へ移行していることです。また、その適応を有効に機能させるためには、産業ドメインに強い基盤モデルが前提になることも、3年間のリーダーボードから確認できます。

Q. Superb AIは、これまでどのような成績を収めていますか？

Superb AIは、2025年のCVPR VPLOWワークショップで、Object Instance Detection Challengeの2位とFoundational FSODの4位を記録しました。2026年には、Foundational FSODのOverall Trackで平均mAP 53.9を記録し、韓国企業として初めて総合1位を獲得しました。

Q. チャレンジの結果はどこで確認できますか？

学会の公式結果ページおよびEvalAIリーダーボードで、全体の結果と各チームの技術レポートを確認できます。

[関連コンテンツ]