Superb Curateのご紹介: より少ないデータで、より優れたモデル性能を実現する。

Superb AI Inc. company logo

Superb AI

2023/6/19
superb curate

この度、Curate(旧名:DataOps)の提供を開始しましたのでお知らせします!

Curateは、私たちが一度は直面したことのあるデータに関する疑問に対するSuperb AIの答えです。どのデータに最初にラベルを貼ればいいのか?どのデータをトレーニングに使うべきか、検証に使うべきか?実際に必要なデータはどれくらいか?などなど。

Curateを使えば、組織内のすべてのコンピュータビジョンデータを一箇所で簡単に管理、キュレーション、可視化することができます。そして、データセット全体を最もよく表すトレーニング用のバランスのとれたスライスを自動キュレーションしたり、エッジケースや潜在的なミスラベルの形で最も価値のあるデータを発見するなど、最小限の手作業で上記の質問すべてにAIを使用して答えることができます。

Superb AIでは、コンピュータビジョンと機械学習の未来は、MLチームの規模やリソースに関係なく、すべての組織がAIアプリケーションを構築して展開できることだと考えており、本製品はこれを実現するための次のステップとなるものです。

この記事では、より少ないデータでより優れたモデル性能を実現するために、今日から使えるすべてのツールや機能を紹介します。すぐにでもご自身の目で確かめたいですか?私たちのチームにご連絡いただければ、個別にデモを実施させていただきます。

データマネジメント
upload query
Superb Curateを使えば、大量のデータを一箇所にアップロードしてパイプライン化することが簡単にできます。  

まずはデータ管理から始めましょう。Curateを使えば、大量のデータを収集したらすぐにアップロードして1つの場所にパイプライン化することが簡単にできます。この初期リリースでは、SDKを使用して、生データとラベル、関連するアノテーションやメタデータをアップロードできます。まもなく、APIやCLIなど、他の多くのアップロード機構や、さまざまな形態のパイプライン自動化に取り組む予定です。

エンベッディングストア

embeding store
独自の高次元埋め込み生成アルゴリズムにアクセスすることができます。

Curateの特徴は、独自の高次元埋め込み生成アルゴリズムへのアクセスを提供することです。これにより、データ、計算リソース、社内の専門知識など、多大なコストがかかるカスタム埋め込みモデルやインフラを構築、訓練、維持する必要がなくなります。また、時間がかかり、面倒な手作業によるキュレーション技術に頼る必要性も軽減、あるいは排除することができます。

その仕組みは簡単です。新しい画像やオブジェクトがアップロードされるたびに、高品質の埋め込みデータが自動的に生成され、Curateは教師なし学習を使って、画像やオブジェクトのデータを視覚的な類似性に基づいてクラスタ化します。Curateのキュレーションアルゴリズムは、これを利用して、トレーニングセットや検証セットなど、モデルのニーズに最も適したデータを自動的に選択します。

クエリーとスライス

query builder
画像内にタグ付けされたメタデータやアノテーション情報の組み合わせで、データを簡単に検索し、意味のあるスライスにグループ化することができます

SDK経由でデータをアップロードした後、画像内にタグ付けされたメタデータやアノテーション情報の任意の組み合わせを使用して、データを簡単に検索し、意味のあるスライスにグループ化することができます。 スライスとは、基本的にデータのサブセットであり、Curateの基本的な概念です。クエリーを使用してスライスを作成することで、ファイル名などの旧式の(そして苦痛を伴う)検索演算子に頼ることなく、適切な方法でデータを手動でキュレーションすることができます。

クエリーを画像レベルのビューと組み合わせて使用し、オブジェクトレベルではタイルビューとスキャッタービューを近日中に公開する予定です。また、現在開発中のセマンティック検索も、必要な時間と認知的労力をさらに軽減します。

さらに、すべてのスライスはプラットフォーム内に保存され、簡単に見つけることができるため、必要なときにすぐに使用したり、参照したりすることができます。


自動 Curate

auto curation
Auto-Curateは、高品質のキュレーションアルゴリズムを使用し、コンピュータビジョンのディマンドスケールに対するキュレーションを行うAIベースのツールです。

機械学習エンジニアやプロジェクトマネージャーは、コンピュータビジョンのデータを収集する際に、昔ながらの直感と力技に頼ることがよくあります。小さな問題を解決するために、この方法が有効であることは間違いありませんが、解決しようとする問題やタスクが大きくなるにつれて、バイアス、主観、オーバーフィッティングなどの問題を引き起こすリスクが大きくなっていきます。そして、はっきり言って、スケーラブルとは言い難いものばかりです。

そこで登場するのが、Auto-Curateです。Auto-Curateは、高品質なキュレーションアルゴリズムを用いて、以下のようなキュレーションを大規模に代行してくれるAIベースのツールです:

  • トレーニングセット

  • 検証用セット

  • エッジケース

  • ラベル間違い (ミスラベル)

可視化されたクラスターから関連データをキュレーションすることは、視覚的に類似した生のビデオフレームを大量に扱っている私たちが常に社内で開発したいと思っていたことです。Superb AIの新しい自動キュレーション機能は、バランスのとれたデータセットを効果的にキュレーションするのに役立ち、時間やランダムベースのサンプリングから脱却することができます。

Yongjin Shin 
ML Engineer at ioCrops

キュレーションアルゴリズムの仕組みとその効果について、もっと知りたいですか?ここでは、これまでに発表されたものをご紹介します:

散布図可視化・分析

cluster visialization
散布図可視化:分析

最後に、データセットのパターンや潜在的な異常値をよりよく理解するためのツールをいくつか紹介します。これは、画像やオブジェクトを視覚的な類似性に基づいて2次元空間上にクラスタリングする埋め込み機能を使用したもので、数秒で分布を可視化することができます。このダッシュボードでは、データプール内のメタデータ、アノテーションタイプ、オブジェクトクラスの分布など、有用な情報を得ることができます。

これらの新機能に関するハウツーガイドを多数ご用意しておりますので、ご期待ください!

いかがでしたでしょうか?メーリングリストに登録すると、より多くの情報を得ることができます!

Curateについてもっと知る
データの範囲や規模、機能セットが大きくなるにつれ、ラベル付けにかかる時間や労力、支出を増やすことなく、パフォーマンスの高いモデルを構築・管理する能力は、ROIを維持するために不可欠です。そこで、Curateがお役に立ちます。インテリジェントなキュレーションがどれほど簡単にできるか、今すぐ当社の営業チームにご相談ください!



Subscribe to our newsletter

Stay updated latest MLOps news and our product releases

About Superb AI

Superb AI is an enterprise-level training data platform that is reinventing the way ML teams manage and deliver training data within organizations. Launched in 2018, the Superb AI Suite provides a unique blend of automation, collaboration and plug-and-play modularity, helping teams drastically reduce the time it takes to prepare high quality training datasets. If you want to experience the transformation, sign up for free today.

Join The Ground Truth Community

The Ground Truth is a community newsletter featuring computer vision news, research, learning resources, MLOps, best practices, events, podcasts, and much more. Read The Ground Truth now.

home_ground_truth

Designed for Data-Centric Teams

We’ve built a platform for everyone involved in the journey from training to production - from data scientists and engineers to ML engineers, product leaders, labelers, and everyone in between. Get started today for free and see just how much faster you can go from ideation to precision models.