散布図からデータをセグメント化し、新しいオブジェクトビューで個々のオブジェクトを検査する

Superb AI Inc. company logo

Superb AI

2023/7/18 | 4min
c1

コンピュータビジョンのためのデータをキュレーションする際にチームが直面する最大の課題の1つは、手作業、ランダムサンプリング、自動キュレーションのような自動化されたアプローチを問わず、選択したデータがモデルのトレーニングや検証に適しているかどうかを評価することです。これは主に、選択されたオブジェクトの多様性、希少なオブジェクトや珍しいオブジェクトが十分に含まれているか、誤ったラベル付けのインスタンスがあるか(またはないか)に基づいています。 

6月、Superb Curateのいくつかの重要なアップデートをリリースし、画像やオブジェクトの埋め込みの散布図を「クール」から「マスト」に変えました。また、グリッドタブと散布図タブに新しいビューと機能を追加し、オブジェクトごとにデータを検査できるようになりました。

Superb Curateの最新機能と性能については、こちらをお読みください。

散布図を使って簡単にデータを探索し、セグメント化できます。

c4
クラスター化されたデータに基づく散布図は、データの分布を一目で理解し、収集すべき不十分なデータを特定し、データセットを改善するための潜在的なエッジケースを探索するための貴重なツールです。しかし、これまでは情報源としての役割しか果たしていませんでした。つまり、散布図はデータセットレベルでしか利用できず、散布図と直接データを操作することはできませんでした。今回のリリースでは、画像レベルとオブジェクトレベルの両方で散布図に対して直接実行できるタスクをいくつか追加し、より効果的にデータを掘り下げてセグメント化できるようになりました。

  • 散布図上で直接データを照会

  • 選択したデータからスライスを作成(サンプリングデータとその領域に対応するデータを含む

  • スライスまたはクエリー結果の散布図を見る

c2

  • 散布図上の点とサムネイルを切り替える

散布図で作業するとき、そして一般的にデータをキュレーションするとき、データがデータセットの他の部分と関連してどのように分布しているかを完全に理解することは非常に重要です。そのために、以下の機能を追加しました:

  • クエリ結果を特定のスライスまたはデータセット全体で比較できます。

  • スライスに含まれるデータを完全なデータセットと比較する。

新しいオブジェクト・レベルのグリッド・ビューと散布図ビューを使用して、データを検査します。

このリリース以前は、チームは画像レベルでのみデータの検査やクエリを行うことができました。オブジェクトレベルのビューが追加されたことで、チームは画像内の対象オブジェクトの正確な位置を素早く特定し、そのオブジェクトがどのような特徴を持っているか、どのようにクラスタ化されているかなどを一目で把握できるようになりました。

Object-Based Queries

c5
特定の条件に一致するオブジェクトを見つけるためにすべての画像を検索するのではなく、幅広い検索演算子を使用してオブジェクトレベルでクエリおよびフィルタリングできるようになりました。検索結果は、オブジェクトごとにトリミングされた注釈として表示されます。この新しいオブジェクトベースのクエリ機能は、すべてのビュー(グリッドおよび散布図)からアクセスできます。

Grid View

c3
グリッドビューには、新たにオブジェクト用のタブが追加され、個別にラベル付けされたオブジェクトがトリミングされた形で表示されます。このビューから、チームはオブジェクトレベルのフィルタを選択して、必要なオブジェクトを素早く簡単に見つけることができます:

  • 「自動車」や「人」などのオブジェクトクラス

  • 「オクルージョン(遮蔽)」や「トランケーション(部分一致などの検索)」などのアノテーションのメタデータ

  • 「バウンディングボックス」のみを表示するなどのアノテーションタイプ

これらのフィルターをクエリーと組み合わせることで、データセットを必要なだけ深く掘り下げることができ、「干し草の山の中の針」をこれまで以上に簡単に見つけることができます。

Scatter View

c6

散布図により、チームはデータセットの分布をオブジェクトごとに表示できるようになりました。クエリやスライスなどの新しい散布図機能も、オブジェクトレベルの散布図ビューでサポートされています。

キュレートの今後は?

カスタムオートラベルオートキュレーションのようなツールを使って、少ない時間とはいえ、データを綿密にラベル付けし、キュレーションするために費やした時間を想像してみてください。モデルをトレーニングまたは検証するためにデータをエクスポートし、最終的にプロトタイプとして、あるいは本番でその成功を目の当たりにしたときの勝利感を思い浮かべてください。

しかし、勝利の霧が消えても、疑問は消えません。"どうすればモデルをさらに微調整できるのか?"、"どうすればミスラベルやバイアスといった長引くデータの問題を修正できるのか?"。従来通りに、次のステップは試行錯誤のほぼ終わりのないサイクルを伴います。

しかし、私たちはこのような頭痛の種となる試行をなくすために取り組んでいます。まもなく、モデル診断を通じて、完全にデータ中心的な方法でモデルのパフォーマンスと脆弱性を評価できるようになります。

今後のリリースでは、学習させたモデルがどのようなタイプのデータで良い結果を出すか、あるいは悪い結果を出すか、そしてそれを修正・改善するためにどのようなアクションを取るべきかを理解するために必要なすべてを提供します。また、同じデータ(または同じモデルの2つのバージョン)に対してトレーニングされた異なるモデルのパフォーマンスを比較対照する方法も含まれます。

7月には詳細が発表されるのでお楽しみに!

Learn more about Curate

Subscribe to our newsletter

Stay updated latest MLOps news and our product releases

About Superb AI

Superb AI is an enterprise-level training data platform that is reinventing the way ML teams manage and deliver training data within organizations. Launched in 2018, the Superb AI Suite provides a unique blend of automation, collaboration and plug-and-play modularity, helping teams drastically reduce the time it takes to prepare high quality training datasets. If you want to experience the transformation, sign up for free today.

Join The Ground Truth Community

The Ground Truth is a community newsletter featuring computer vision news, research, learning resources, MLOps, best practices, events, podcasts, and much more. Read The Ground Truth now.

home_ground_truth

Designed for Data-Centric Teams

We’ve built a platform for everyone involved in the journey from training to production - from data scientists and engineers to ML engineers, product leaders, labelers, and everyone in between. Get started today for free and see just how much faster you can go from ideation to precision models.