AIに注意深くアプローチすることで、偏ったデータセットをどのように削減できるか

偏ったデータセットと倫理的なAI

AIを活用したソリューションを効果的にするには、データセットが必要です。 そして、これらのデータセットの作成には、体系的なレベルでの暗黙のバイアス問題が伴います。 すべての人々は偏見(意識的および無意識的の両方)に苦しんでいます。 偏見は、地理的、言語的、社会経済的、性差別的、人種差別的など、さまざまな形をとることができます。 そして、それらの体系的なバイアスはデータに組み込まれ、バイアスを永続化および拡大するAI製品をもたらす可能性があります。 組織は、データセットに忍び寄るバイアスを軽減するための注意深いアプローチを必要としています。

バイアス問題を説明する例

当時多くの否定的な報道を集めたこのデータセットバイアスのXNUMXつの注目すべき例は、女性よりも男性の候補者を支持する履歴書の読書ソリューションでした。 これは、応募者の大多数が男性だった過去XNUMX年間の履歴書を使用して、採用ツールのデータセットが開発されたためです。 データには偏りがあり、結果にはその偏りが反映されていました。 

もうXNUMXつの広く報告されている例:毎年恒例のGoogle I / O開発者会議で、Googleは、肌、髪、爪に関連する問題で何が起こっているのかを理解するのに役立つAIを利用した皮膚科支援ツールのプレビューを共有しました。 皮膚科アシスタントは、AIがヘルスケアを支援するためにどのように進化しているかを強調していますが、ツールが有色人種には不十分であるという批判を受けて、バイアスがAIに忍び寄る可能性も強調しています。

グーグルがツールを発表したとき、会社は次のように述べました:

私たちがすべての人のために構築していることを確認するために、私たちのモデルは、年齢、性別、人種、肌のタイプなどの要因を考慮しています。

Google、AIを使用して一般的な肌の状態に対する答えを見つける

しかし、Viceの記事によると、Googleは包括的なデータセットを使用できませんでした。

このタスクを実行するために、研究者は64,837つの州にいる12,399人の患者の3.5枚の画像のトレーニングデータセットを使用しました。 しかし、写真に写っている何千もの皮膚の状態のうち、フィッツパトリックの皮膚タイプVおよびVIの患者からのものはわずか90%でした。これらは、それぞれ茶色の皮膚と暗褐色または黒色の皮膚を表しています。 調査によると、データベースのXNUMX%は、色白の肌、暗い白い肌、または明るい茶色の肌の人々で構成されていました。 偏ったサンプリングの結果として、皮膚科医は、アプリが白人ではない人々を過大または過小に診断することになる可能性があると言います。

副、Googleの新しい皮膚科アプリは肌の色が濃い人向けに設計されていません

グーグルは、正式にリリースする前にツールを改良すると述べた。

私たちのAIを活用した皮膚科支援ツールは、XNUMX年以上の研究の集大成です。 私たちの仕事がNatureMedicineで取り上げられて以来、何千人もの人々から寄贈されたデータや、何百万もの厳選された皮膚関連画像を含む追加のデータセットを組み込んで、テクノロジーの開発と改良を続けてきました。

Google、AIを使用して一般的な肌の状態に対する答えを見つける

AIと機械学習プログラムがこれらのバイアスを修正できることを期待するかもしれませんが、現実は残っています。 スマート 彼らのデータセットはきれいなので。 古いプログラミング格言へのアップデートで ガベージイン/ガベージアウト、AIソリューションは、最初からデータセットの品質と同じくらい強力です。 プログラマーによる修正がなければ、これらのデータセットには、他の参照フレームがないため、修正するためのバックグラウンドの経験がありません。

責任を持ってデータセットを構築することは、すべての中核です 倫理的な人工知能。 そして、人々はソリューションの中核です。 

マインドフルAIは倫理的なAIです

バイアスは真空中では起こりません。 非倫理的または偏ったデータセットは、開発段階で間違ったアプローチを取ることから生じます。 バイアスエラーと戦う方法は、業界の多くの人がマインドフルAIと呼んでいる、責任ある人間中心のアプローチを採用することです。 マインドフルAIには、次のXNUMXつの重要なコンポーネントがあります。

1.マインドフルAIは人間中心

AIプロジェクトの開始から、計画段階では、人々のニーズがすべての決定の中心になければなりません。 そしてそれは、サブセットだけでなく、すべての人々を意味します。 そのため、開発者は、AIアプリケーションを包括的で偏りのないものにトレーニングするために、グローバルベースの人々の多様なチームに依存する必要があります。

グローバルで多様なチームからデータセットをクラウドソーシングすることで、バイアスを早期に特定して除外することができます。 さまざまな民族、年齢層、性別、教育レベル、社会経済的背景、場所の人々は、ある値のセットを別の値よりも優先するデータセットをより簡単に見つけることができるため、意図しないバイアスを取り除くことができます。

音声アプリケーションを見てください。 注意深いAIアプローチを適用し、グローバルな人材プールの力を活用する場合、開発者はデータセット内のさまざまな方言やアクセントなどの言語要素を考慮することができます。

人間中心の設計フレームワークを最初から確立することが重要です。 生成、キュレーション、ラベル付けされたデータがエンドユーザーの期待に応えることを保証するのに大いに役立ちます。 しかし、製品開発のライフサイクル全体を通して人間をループに保つことも重要です。 

ループ内の人間は、マシンが特定のオーディエンスごとにより良いAIエクスペリエンスを作成するのを支援することもできます。 Pactera EDGEでは、グローバルに配置されたAIデータプロジェクトチームが、さまざまな文化やコンテキストが信頼できるAIトレーニングデータの収集とキュレーションにどのように影響するかを理解しています。 AIベースのソリューションが稼働する前に、問題にフラグを立て、監視し、修正するために必要なツールがあります。

ヒューマンインザループAIは、人々の強みとその多様な背景を機械の高速コンピューティング能力と組み合わせたプロジェクト「セーフティネット」です。 この人間とAIのコラボレーションは、偏ったデータがプロジェクトの基盤を形成しないように、プログラムの最初から確立する必要があります。 

2.マインドフルAIは責任があります

責任を負うことは、バイアスのないAIシステムを確保し、それらが倫理に基づいていることを保証することです。 それは、データがどのように、なぜ、どこで作成されるか、AIシステムによってどのように合成されるか、そして意思決定にどのように使用されるか、倫理的な意味を持つ可能性のある決定に注意することです。 企業がそうするためのXNUMXつの方法は、過小評価されているコミュニティと協力して、より包括的で偏見を少なくすることです。 データ注釈の分野では、新しい研究により、各注釈者のラベルを個別のサブタスクとして扱うマルチアノテーターマルチタスクモデルが、アノテーターの不一致が過少表現に起因する可能性がある典型的なグラウンドトゥルースメソッドに固有の潜在的な問題を軽減するのにどのように役立つかが強調されています。単一のグラウンドトゥルースへの注釈の集約では無視される可能性があります。 

3.信頼できる

信頼性は、AIモデルがどのようにトレーニングされ、どのように機能し、なぜ結果を推奨するのかについて、透明性があり説明可能なビジネスに由来します。 ビジネスには、クライアントがAIアプリケーションをより包括的でパーソナライズし、ある国から次の国へのAIソリューションの信頼性を左右する可能性のある現地の言語とユーザーエクスペリエンスの重要なニュアンスを尊重できるようにするためのAIローカリゼーションに関する専門知識が必要です。 。 たとえば、企業は、音声ベースのアプリケーションの言語、方言、アクセントなど、パーソナライズされたローカライズされたコンテキスト用にアプリケーションを設計する必要があります。 このように、アプリは、英語から過小評価されている言語まで、すべての言語に同じレベルの高度な音声体験をもたらします。

公平性と多様性

最終的に、マインドフルネスAIは、ソリューションが市場に出る前に、特定の結果の結果と影響が監視および評価される、公正で多様なデータセットに基づいてソリューションが構築されることを保証します。 ソリューションの開発のあらゆる部分に注意を払い、人間を含めることで、AIモデルをクリーンに保ち、偏りを最小限に抑え、可能な限り倫理的にすることができます。

おわりに

このサイトはAkismetを使用して迷惑メールを減らします。 コメントの処理方法を学ぶ.