データアノテーション機能

機械学習支援ツールを使用し、大規模で高速なデータアノテーションを実現

データアノテーション機能

高品質のデータアノテーションは、あらゆるAI/MLモデルのトレーニングを成功させる鍵となります。つまり、重要なのはモデルがどのような判断を下すべきかを学習する場です。Appenのプラットフォームは、大規模なヒューマンインテリジェンスと最先端のモデルを組み合わせ、モデルに必要となる正確な実情報を作るために、文章から映像、音声に至るまで、あらゆる種類の生データにアノテーションを付与します。収集、分類、アノテーション、文字起こし、翻訳ーどのタイプの生データであっても、幅広いラベル付けのニーズにAppenのテクノロジーとクラウドワーカーが対応いたします。

機械学習の活用

アノテーションツールの大部分には、アノテーション担当者の作業スピードおよび精度を向上させるため、機械学習支援（MLA）機能が組み込まれています。機械学習支援は、機械による予測と人間によるアノテーションを組み合わせているため、ゼロからアノテーションを作成する代わりに、機械学習支援機能がアノテーションにおける判断を提案するため、作業者は容易に提案のレビューおよび編集-が可能となりアノテーションにおける時間と労力を節約します。

ゼロから判断に取り掛かるのではなく、作業者が機械による予測をレビューすることで、データアノテーション時間が大幅に削減されます。これにより、モデルによる予測を確認し、必要に応じ修正することが当社チームの役割という安心感とともに、高速で拡張可能なモデルの展開を可能にします。

スマート・ラベリング

Appenのイノベーティブな新機能、スマート・ラベリング・スイートは、データアノテーションのプロセスに機械学習の支援を採用。テータ収集とデータアノテーション・プロジェクトの生産性、品質およびデリバリーの自動化と向上を図ります。機械の予測と人によるアノテーションを組みあわせた機械学習支援型機能は、人だけに頼ったアノテーション作業と比べ、大幅な効率化が期待できます。Appenのスマートラベリングは、機械学習の導入によりデータアノテーション作業により良い品質、コストや作業時間の削減をもたらす、3つの分野に力をいれています。

プレラベリング

機械学習は、クラウドワーカーが作業に取り組む前に関連性の高い予測を提供します。クラウドワーカーは、ゼロからアノテーションを作成する代わりに、提案されたアノテーションのレビューがメイン業務となり、実作業にかかる時間を大幅に削減します。

スピードラベリング

クラウドワーカーが作業している間、機械学習支援機能はツール内の効率、品質、精度を提供し、人間工学的条件を改善。これにより、負担が軽減され、より迅速に、より快適に作業できるようになり、アノテーションの作業効率の向上につながります。

スマート・バリデータ

人による判断を確定する前に、機械学習が検証を実施します。これにより、ピアレビューが不要になり、要件に合わない判断リスクを排除し、品質の高い判定にのみ課金することを保証します。

Appenのスマート・ラベリング機能は、迅速でスケーラブルなモデルのデプロイメントを実現します。さらに、必要に応じ、有資格のクラウドワーカーが判断の監視、修正をいたします。

アノテーション・ツール

機械学習支援機能搭載

ビデオ・オブジェクト・トラッキング

機械学習支援機能搭載

Appenの線形補間とビデオ・オブジェクト・トラッキング・モデルはオブジェクトの位置を予測し、追跡を自動化。従来かかっていた労力の削減を図ります。

イメージデータ・ラベリング

機械学習支援機能搭載

事前トレーニングされたIBMの画像分類モデルは、データのラベリングを自動化し、人によるラベリングの必要があるデータのみを抽出することで、時間とコストの節約を実現します。

テキスト・アノテーション

機械学習支援機能搭載

既存のデータを使用し、モデルの予測を容易にプラットフォームに取り込みます。再トレーニングに向けて、モデルのパフォーマンスに、より高速で高品質なアノテーションと、より高精度なメトリクス（測定指標）を取得します。

テキスト発話収集

機械学習支援機能搭載

収集されたテキスト発話が有効かつ高品質であることを機械学習が検証。エラー率を35％削減、チャットボットのテストおよび展開において高速化を図ります。

オーディオ・アノテーション

機械学習支援機能搭載

既存のデータを使用し、モデルの予測を容易にプラットフォームに取り込みます。再トレーニングに向けて、モデルのパフォーマンスに、より迅速、より高品質なアノテーションと、より高精度なメトリックを取得します

導入企業

Appenがサポートするアノテーション機能のタイプ

収集

データの種類：文章、画像、音声、映像、URL

音声、画像、ウェブサイトなど、ユーザーが作成したコンテンツおよびリンクをウェブ上から収集、データプログラムに活用します。Appenでは、よりシンプルな画像/音声収集および情報抽出ジョブから、チャットボットプログラム向けの車内音声収集やテキスト発話収集などの複雑なデータ活用事例まで、幅広くサポートしています。

分類

データの種類：文章、画像、音声、映像、URL、点群

Appenのアノテーション・プラットフォームを使用して、あらゆる種類のデータを大規模に分類およびカテゴリー化。貴社のユーザーが提供する大量のコンテンツを精密に管理、分類します。一般的な活用事例として、コンテンツ管理、感情分析、検索の関連性、製品分類、オブジェクト分類などがございます。

アノテーション

データの種類：文章、画像、音声、映像、点群(ポイントクラウド)

Appenのアノテーションツールを使い、画像、文章、映像、点群(ポイントクラウド)、および音声にアノテーションを付与します。シンプルな境界ボックスでも、音声のセグメンテーションでも、最先端のAppenテクノロジープラットフォームにてアノテーションをサポートいたします。さらに、NER（Named Entity Recognition, 固有表現抽出）および発話ラベリングの一部を含む、文章ラベリングツールにも対応。人手によるアノテーション作業と比較し、より高い効率と精度を求めた結果、多くのAppenツールには機械学習支援機能を内蔵しております。当社プラットフォーム内、テンプレートライブラリにてご覧いただけます。

文字起こし

データの種類：画像、音声、映像

単一の範囲および複数のページのご利用でも、さまざまなサービスを活用し、文書、文書内画像、またはウェブサイトの情報を文字に起こします。また、Appenの自然言語処理（NLP）および音声発話認識（ASR）プログラムの拡張に対応可能な音声文字起こしサービスも、ぜひご活用ください。

翻訳

データの種類：文章

Appenには、235以上の異なる言語を扱う、100万人以上の熟練した翻訳担当クラウドワーカーが在籍しています。特定分野に精通した言語専門家のサポートにより、AIおよびMLモデルを精確にトレーニングするための大量データの翻訳に対応が可能です。