オートキュレイトがモデルのパフォーマンスを向上させる方法: LOCOを用いた検証について

Hyun Kim

Hyun Kim

Co-Founder & CEO | 2023/6/26
q1

より信頼性の高いモデルのためにトレーニングセットをキュレートする

バランスの取れたサンプル分布を持つデータセットのキュレーションは、特にまばらなデータセットや限られたメタデータしか持たないデータセットを扱う場合、困難なタスクになる可能性があります。私たちの製品であるCurateは、このような課題に対処し、ユーザーがより稀なエッジケースを含むトレーニングデータセットや検証データセットをキュレートできるようにすることを目的としています。これにより、実世界のシナリオで優れた性能を発揮する、より信頼性の高いモデルを構築することができます。

Auto-Curate機能では、"embedding "と呼ばれるAI技術に基づき、キュレーションプロセスを自動化することができます。この技術は、AIが背景、色、構図、角度など、画像間の視覚的な類似性を理解し、比較するのに役立ちます。この技術を利用することで、Curateは様々なAIベースのデータキュレーション機能を提供します。例えば、ラベル付けされていない画像のデータセットを、均等な分布とデータの冗長性を最小限に抑えてキュレーションする機能、稀な画像やエッジケースである可能性が高い画像のみをキュレーションする機能、データセットを代表し、頻繁に出現する画像のみをキュレーションする機能などがあります。

実証実験のセットアップ

LOCOデータセットは、物流関連のコンピュータビジョン問題に取り組む研究者や開発者にとって貴重なものです。このデータセットは、ロジスティクスに特化したオブジェクトの検出をカバーする、ロジスティクス専用に設計された最初のシーン認識データセットです。このデータセットは、低価格のカメラを使って5つの物流環境で撮影された37,988枚の画像で構成されています。これらの画像のうち、5,593枚が手動でアノテーションされ、152,421のアノテーションが得られました。アノテーションは、フォークリフト、パレットトラック、パレット、小型荷台、静止物など、物流に特化したクラスをカバーしています。LOCOデータセットは、ロジスティクスのオブジェクトと設定を包括的にカバーしており、ロジスティクス関連のコンピュータビジョンアルゴリズムの改善に取り組む人々に豊富なリソースを提供します。.

実験セットアップでは、まず、モデルが予測することが困難なエッジケースやレアケースをより多く含めるために、オートキュレート機能を使って検証セットをキュレートしました。このキュレーションされた検証セットは、2,277枚の画像を含む公式検証セットからサンプリングされた1,000枚の画像セットで 構成されています。

そして、キュレーションされたトレーニングセットとランダムにサンプリングされたトレーニングセットという2つのトレーニングセットを作成し、比較します。この2つの異なるトレーニングセットを、それぞれcurated-train-setとrandom-train-setと呼ぶことにします。どちらのトレーニングセットも、2,820枚の画像を含む公式トレーニングセットから1,000枚の画像で構成さています。 

この実験セットアップを用いて、これら2つの異なるトレーニングセットで事前訓練されたモデルを微調整し、キュレートされた検証セットでその性能を評価しました。

Superb AI Academy | Curate with Superb AI - Curate Overview

データキュレーションがデータセット構成に与える影響 

以下の表は、ランダムにサンプリングされたトレーニングセットとキュレーションされたトレーニングセットの構成を示しています。どちらのセットにも1,000枚の画像が含まれていますが、クラス間の割合分布が明らかに異なっています。ランダムにサンプリングされたトレーニングセットは、LOCOデータセット全体と同様のクラス分布を持っています。 

Q5
無作為に抽出されたトレーニングセットとキュレーションされたトレーニングセットの構成

しかし、キュレートされたトレーニングセットが異なるクラス分布を持っていることもすぐにわかります。キュレートされたトレーニングセットは、代表性の低いクラスが多くサンプリングされ、代表性の高いクラスが少なくサンプリングされるように設計されており、その結果、バランスの取れたデータセットとなります。つまり、我々のオートキュレート機能は、データセットにしばしば存在するクラスの不均衡に対処するのに役立ち、モデル性能の向上につながります。

次に、Auto-Curate 機能が、同じオブジェクトクラスに属する画像のばらつきや分布をどの程度考慮しているかについても検証します。ここでは例として「小型荷台」クラスを選びます。

q2

小型のロードキャリア

小型荷役用キャリアは、通常、倉庫や製造施設内でより小さな物品を輸送するために使用される物流機器の一種であり、通常、上の画像のような形をしたものです。

私たちのAuto-Curate機能は、異なるクラス間のバランスを考慮するだけでなく、同じクラスの画像やオブジェクトの様々な見え方も考慮します。これはクラス内変動性と呼ばれ、「人物」画像の100万通りの見え方、つまりポーズ、服装、身長、性別、背景、照明、カメラアングルなどの違いと考慮することができます。トレーニング(および検証)データセットに、各クラスの多様な画像セットが含まれるようにすることが重要です。

q3
LOCOデータセットにおける小型貨物キャリアクラスの一般的なケース(左)と稀なエッジケース(右

各画像の埋め込み値を利用して、どの画像が一般的で、どの画像が希少かを判断します。我々のシステムは、類似性に基づいて埋め込み値をクラスタリングし、各クラスタは異なるサイズになります。多くの画像からなる大きなクラスタが存在する場合、それは特定のタイプの画像やオブジェクトがデータセットで一般的であり、そのクラスの典型例であることを示します。逆に、数枚(あるいは1枚)の画像しかない小さなクラスタがある場合は、その画像やオブジェクトが稀であり、エッジケースである可能性が高いことを示します。

上の例では、小さなクラスターに属する4つのエッジケース画像を示しています。データセット内の一般的なケースよりも判別が難しい画像であることがわかります。

キュレーションされたデータセットに、各クラスの稀なエッジ例が十分に含まれるように、我々のAuto-Curateアルゴリズムは、トレーニングセットにこれらの例を含めるように設計されています。そうすることで、学習されるモデルはこれらのケースに対してより頑健になります。次のセクションでは、このクラス分布の変化とエッジケースのトレーニングセットへの取り込みが、モデルのパフォーマンスにどのような影響を与えるかを探ります。

データキュレーションがモデルのパフォーマンスに与える影響 

q4
RandomとCuratedのトレーニングセットはどちらも1,000枚の画像があるが、トレーニングセットをCuratedにすることで、学習済みモデルの全体的なパフォーマンスが向上した。

Precision(精度)とRecall(再現)は、機械学習モデルの性能を評価するために一般的に使用される2つのメトリクスです。精度は、モデルが正の予測を行ったすべての回数のうち、正のクラス(すなわち、関心のあるクラス)を正しく識別する頻度を測定します。より簡単に言えば、精度は、特定のクラスとして識別されたオブジェクトのうち、いくつが実際にそのクラスであるかを示す。一方、再現は、特定のクラスに属する実際のオブジェクトのいくつが、そのクラスとして識別されたかを示します。

F-1スコアは、Precision(精度)とRecall(再現)を1つのスコアにまとめた指標です。これは精度と再現の調和平均であり、0から1の範囲で、1が可能な限り最高のスコアである。F-1スコアは、特にデータセットが不均衡(つまり、あるクラスが他のクラスより頻繁に出現する)な場合に、モデル全体のパフォーマンスを測定するためによく使われます。

実験の結果は実にエキサイティングなものでした!どのデータをトレーニングセットに含めるかを選別するオートキュレート機能を利用することで、全オブジェクトクラス平均でF-1スコアが14.5%向上しました。

このパフォーマンスの向上は、追加データなしで達成されたため、特に注目に値します。より堅牢でバランスの取れたデータセットを確保するために、エッジケースや代表度の低いクラスを選択するオートキュレート機能を使用して、トレーニングデータセットに使用する画像を慎重にキュレートすることだけ が必要でした。これは、機械学習のパワーと、熟考されたデータキュレーションの重要性を示しています。当社のツールを使用することで、ユーザーは最小限の追加労力で大幅な性能向上を達成することができ、正確で信頼性の高いモデルの開発がこれまで以上に容易になります。

Superb Curateでより堅牢なモデルを構築する

Superb CurateのAuto-Curate機能は、機械学習モデルの精度とロバスト性を向上させるために私たちの製品が提供する数多くの強力なツールの1つに過ぎません。AIベースのデータキュレーション機能を活用することで、Superb Curateは機械学習チームがトレーニングデータセットを効率的にキュレートし、より堅牢で高性能なモデルを構築できるようにします。

Superb Curateを使えば、ユーザーはモデルのパフォーマンスを向上させるために、より多くのデータにラベル付けする必要はありません。その代わりに、最も価値のあるデータを選択し、モデルをより効果的にトレーニングするのに役立つ画像セットをキュレートすることに集中することができます。これにより、貴重な時間とリソースを節約すると同時に、より優れたモデルを作成することができます。

Superb Curateがお客様の機械学習モデルをどのように最適化できるかについてご興味がおありでしたら、私どものチームまでご連絡ください!ユーザーフレンドリーなインターフェースと強力な機能を備えたSuperb Curateは、機械学習モデルの機能拡張をお考えの皆様に最適なツールです。




Subscribe to our newsletter

Stay updated latest MLOps news and our product releases

About Superb AI

Superb AI is an enterprise-level training data platform that is reinventing the way ML teams manage and deliver training data within organizations. Launched in 2018, the Superb AI Suite provides a unique blend of automation, collaboration and plug-and-play modularity, helping teams drastically reduce the time it takes to prepare high quality training datasets. If you want to experience the transformation, sign up for free today.

Join The Ground Truth Community

The Ground Truth is a community newsletter featuring computer vision news, research, learning resources, MLOps, best practices, events, podcasts, and much more. Read The Ground Truth now.

home_ground_truth

Designed for Data-Centric Teams

We’ve built a platform for everyone involved in the journey from training to production - from data scientists and engineers to ML engineers, product leaders, labelers, and everyone in between. Get started today for free and see just how much faster you can go from ideation to precision models.