トレーニングデータ


Appen独自のアプローチで、信頼性の高いトレーニングデータを提供いたします



Image

Appenの高精度なトレーニングデータで、大規模なAI開発をサポート



AIソリューションの構築を成功に導くためには、質の高いトレーニングデータが大量に必要です。Appenでは、信頼性の高い、世界トップクラスのトレーニングデータを大規模に生成するために必要不可欠となる、クラウドワーカー、プラットフォーム、専門知識をご提供しております。




トレーニングデータとその重要性について



トレーニングデータとは、AIモデルや機械学習アルゴリズムが適切な判断を導くことができるように意味付け(ラベリング)されたデータです。

例えば、自動運転車に使用するモデルを構築するためのトレーニングデータには、車、道路標識そして人々を識別するようにラベル付けされた画像や映像が含まれます。カスタマーサービス業向けのチャットボット生成には、「銀行残高はいくらあるのかしら?」というシンプルな疑問を解決に導く、ありとあらゆる尋ね方の、文章だけでなく音声のデータも必要となります。さらに、そのデータは、多様な言語へと翻訳されます。

AIモデルやAIプロジェクトの開発において大きな役割を担っているものがトレーニングデータなのです。「Garbage in Garbage out(ガーベージ・イン、ガーベージ・アウト)」という言葉を耳にしたことはありますか?これは、「無意味なデータからは、意味ある結果は出てこない」という意味の慣用句です。低品質なデータをモデルへのトレーニングに用いれば、最高品質のモデル構築への道のりは、はるか遠いものとなるでしょう。遠いどころか、完成そのものが難しいでしょう。

最適なアルゴリズムを使用しても、低品質のデータでトレーニングすることにより、誤った内容を学習してしまいます。思惑通りの結果は出ず、お客様の期待に添うような働きをしてくれません。AIモデルやAIプロジェクトにおける成功への道は「どのデータを選ぶか」にかかっているといっても過言ではありません。


Image Image




Appenが選ばれる理由



トレーニングデータのラベル付けや収集には、ヒューマン・インテリジェンスの力が不可欠です。Appenの高品質かつ信頼性の高いトレーニングデータは、ヒューマン・インテリジェンスにより支えられています:



Image

プラットフォーム



Appenのプラットフォームでは、画像、文章、音声、映像、センサーなどのデータ収集およびラベリングをサポートし、世界トップクラスのイノベーティブな人工知能システムの構築からトレーニング、継続的な向上までを担います。当社のプラグアンドプレイ機能を備えたグラフィカル・ユーザー・インターフェースや独自APIが、データアノテーション作業の作成、ローンチを簡易化。機械学習の品質、精度、アノテーション速度の向上を図るスマートラベリング機能もございます。



詳細はこちら
Image

クラウドワーカー



世界トップクラスのAI開発に欠かせない膨大な量のトレーニングデータを作成するには、数多くのクラウドワーカーのサポートが欠かせません。また、クラウド・マネージメントサービスにおいては、各企業の要件に合わせ、最適なアノテーションの人材を見極められる豊富な経験が求められます。Appenには、100万人を超える優秀なクラウドワーカーが在籍しております。そのネットワークは、170か国以上、235を超える幅広い言語をカバーしています。



詳細はこちら
Image

専門知識



25年以上にわたり、Appenは機械学習プロジェクトの分野において6,000を超えるプロジェクトを遂行してきました。この経験があるからこそ、今日のAIプロジェクトに求められる複雑なニーズにも対応可能な、迅速かつ精度の高いサービスを提供しております。世界各国で活躍するテクノロジー、自動車、金融サービス、小売、製造の各業界そして各国政府のリーダーから必要とされる品質、セキュリティレベル、スピードに、当社のソリューションで対応いたします。



詳細はこちら


世界トップクラスのAIを実装する当社のお客様



Image
Image
Image
Image
Image
Image
Image
Image
Image




トレーニングデータの種類



Image

文章



さまざまな言語で収集、ラベリング、検証されたデータを活用し、テキストベースの自然言語処理を導入。

Image

画像



画像分類の収集および理解、またセマンティック・セグメンテーションにおけるピクセル・ラベリングを活用することで、機械学習機能にコンピュータービジョンを装備。

Image

音声



発話に絞ったデータは、タイムスタンプが付与され、180を超える言語および方言によって分類されます。この音声データを処理するインターフェイスの構築。

Image

映像



高品質の音声と画像のアノテーションを組み合わせて映像の処理を行い、機械学習に活用可能なトレーニングデータを生成。映像入力の理解およびオブジェクトの認識、意思決定についてモデルに学習させます。

Image

センサー



センサーから直接得られるデータをアノテーションして、データポイントを活用。また、LiDARやポイントクラウド(点群)アノテーションなどの多種多様なデータソースの決定を機械学習モデルに習得させます。