製品

コンピュータビジョンのためのデータをキュレーションする際にチームが直面する最大の課題の1つは、手作業、ランダムサンプリング、自動キュレーションのような自動化されたアプローチを問わず、選択したデータがモデルのトレーニングや検証に適しているかどうかを評価することです。これは主に、選択されたオブジェクトの多様性、希少なオブジェクトや珍しいオブジェクトが十分に含まれているか、誤ったラベル付けのインスタンスがあるか(またはないか)に基づいています。
6月、Superb Curateのいくつかの重要なアップデートをリリースし、画像やオブジェクトの埋め込みの散布図を「クール」から「マスト」に変えました。また、グリッドタブと散布図タブに新しいビューと機能を追加し、オブジェクトごとにデータを検査できるようになりました。
Superb Curateの最新機能と性能については、こちらをお読みください。
散布図を使って簡単にデータを探索し、セグメント化できます。

クラスター化されたデータに基づく散布図は、データの分布を一目で理解し、収集すべき不十分なデータを特定し、データセットを改善するための潜在的なエッジケースを探索するための貴重なツールです。しかし、これまでは情報源としての役割しか果たしていませんでした。つまり、散布図はデータセットレベルでしか利用できず、散布図と直接データを操作することはできませんでした。今回のリリースでは、画像レベルとオブジェクトレベルの両方で散布図に対して直接実行できるタスクをいくつか追加し、より効果的にデータを掘り下げてセグメント化できるようになりました。
- 散布図上で直接データを照会
- 選択したデータからスライスを作成(サンプリングデータとその領域に対応するデータを含む
- スライスまたはクエリー結果の散布図を見る

- 散布図上の点とサムネイルを切り替える
散布図で作業するとき、そして一般的にデータをキュレーションするとき、データがデータセットの他の部分と関連してどのように分布しているかを完全に理解することは非常に重要です。そのために、以下の機能を追加しました:
- クエリ結果を特定のスライスまたはデータセット全体で比較できます。
- スライスに含まれるデータを完全なデータセットと比較する。
新しいオブジェクト・レベルのグリッド・ビューと散布図ビューを使用して、データを検査します。
このリリース以前は、チームは画像レベルでのみデータの検査やクエリを行うことができました。オブジェクトレベルのビューが追加されたことで、チームは画像内の対象オブジェクトの正確な位置を素早く特定し、そのオブジェクトがどのような特徴を持っているか、どのようにクラスタ化されているかなどを一目で把握できるようになりました。
Object-Based Queries

特定の条件に一致するオブジェクトを見つけるためにすべての画像を検索するのではなく、幅広い検索演算子を使用してオブジェクトレベルでクエリおよびフィルタリングできるようになりました。検索結果は、オブジェクトごとにトリミングされた注釈として表示されます。この新しいオブジェクトベースのクエリ機能は、すべてのビュー(グリッドおよび散布図)からアクセスできます。
Grid View

グリッドビューには、新たにオブジェクト用のタブが追加され、個別にラベル付けされたオブジェクトがトリミングされた形で表示されます。このビューから、チームはオブジェクトレベルのフィルタを選択して、必要なオブジェクトを素早く簡単に見つけることができます:
- 「自動車」や「人」などのオブジェクトクラス
- 「オクルージョン(遮蔽)」や「トランケーション(部分一致などの検索)」などのアノテーションのメタデータ
- 「バウンディングボックス」のみを表示するなどのアノテーションタイプ
これらのフィルターをクエリーと組み合わせることで、データセットを必要なだけ深く掘り下げることができ、「干し草の山の中の針」をこれまで以上に簡単に見つけることができます。
Scatter View

散布図により、チームはデータセットの分布をオブジェクトごとに表示できるようになりました。クエリやスライスなどの新しい散布図機能も、オブジェクトレベルの散布図ビューでサポートされています。
キュレートの今後は?
カスタムオートラベルやオートキュレーションのようなツールを使って、少ない時間とはいえ、データを綿密にラベル付けし、キュレーションするために費やした時間を想像してみてください。モデルをトレーニングまたは検証するためにデータをエクスポートし、最終的にプロトタイプとして、あるいは本番でその成功を目の当たりにしたときの勝利感を思い浮かべてください。
しかし、勝利の霧が消えても、疑問は消えません。"どうすればモデルをさらに微調整できるのか?"、"どうすればミスラベルやバイアスといった長引くデータの問題を修正できるのか?"。従来通りに、次のステップは試行錯誤のほぼ終わりのないサイクルを伴います。
しかし、私たちはこのような頭痛の種となる試行をなくすために取り組んでいます。まもなく、モデル診断を通じて、完全にデータ中心的な方法でモデルのパフォーマンスと脆弱性を評価できるようになります。
今後のリリースでは、学習させたモデルがどのようなタイプのデータで良い結果を出すか、あるいは悪い結果を出すか、そしてそれを修正・改善するためにどのようなアクションを取るべきかを理解するために必要なすべてを提供します。また、同じデータ(または同じモデルの2つのバージョン)に対してトレーニングされた異なるモデルのパフォーマンスを比較対照する方法も含まれます。
7月には詳細が発表されるのでお楽しみに!
Learn more about Curate
- How Curate and Auto-Curate work using the MNIST dataset as an example
- How Auto-Curate can save labeling resources (experimental study using MS COCO)
- How to improve model performance using Auto-Curate (LOCO experiment)
- A practical guide to feature embeddings for ML Engineers
- How to leverage computer vision data labeling through embeddings

Superb AIの紹介
Superb AIはエンタープライズレベルのAI学習データ構築プラットフォームです。機械学習チームが社内の学習データをより効果的に管理・配信できる新たなデータ管理の方向性を提示します。2018年の設立以来、オートメーション、コラボレーション、プラグ&プレイモジュール化のキーワードを巧みに組み合わせ、多くのチームが高品質な学習データ準備に費やす時間を大幅に短縮できるよう支援しています。革新を体験したい方は、今すぐ無料でサインアップしてください。