データクレンジングが重要である理由と、データクレンジングのプロセスとソリューションを実装する方法
多くのビジネスリーダーは、目標を達成できないため、データ品質の低下が懸念されています。 信頼できるデータ洞察を生み出すことになっているデータアナリストのチームは、時間の80%をデータのクリーニングと準備に費やし、 たった20%の時間 実際の分析を行うために残されています。 複数のデータセットのデータ品質を手動で検証する必要があるため、これはチームの生産性に大きな影響を与えます。
CEOの84%は、意思決定の基礎となるデータの品質に懸念を抱いています。
グローバルCEOOutlook、Forbes Insight、KPMG
このような問題に直面した後、組織は、データをクリーンアップおよび標準化するための自動化された、より単純で、より正確な方法を探しています。 このブログでは、データクレンジングに関連するいくつかの基本的なアクティビティと、それらを実装する方法について説明します。
データクレンジングとは何ですか?
データクレンジングは、意図された目的でデータを使用できるようにするプロセスを指す広義の用語です。 これは、データセットと標準化された値から誤った情報と無効な情報を排除し、すべての異なるソースにわたって一貫したビューを実現するデータ品質修正プロセスです。 このプロセスには通常、次のアクティビティが含まれます。
- 取り外して交換する –データセット内のフィールドには、多くの場合、役に立たない先頭またはトレース文字または句読点が含まれているため、分析を改善するために置換または削除する必要があります(スペース、ゼロ、スラッシュなど)。
- 解析してマージ –フィールドに集約されたデータ要素が含まれる場合があります。たとえば、 住所 フィールドに含まれる 番地, 道の名前, 市町村, 都道府県このような場合、集計フィールドを個別の列に解析する必要がありますが、データをより適切に表示するために一部の列をマージする必要があります。これは、ユースケースに適したものです。
- データ型を変換する –これには、変換などのフィールドのデータ型の変更が含まれます 電話番号 以前はフィールドでした 文字列 〜へ 数。 これにより、フィールドのすべての値が正確で有効になります。
- パターンを検証する –一部のフィールドは、有効なパターンまたは形式に従う必要があります。 そのために、データクレンジングのプロセスは現在のパターンを認識し、それらを変換して精度を確保します。 たとえば、 米国の電話 数 パターンに従う:AAA-BBB-CCCC
- ノイズを取り除く –データフィールドには、多くの場合、あまり価値がないためにノイズが発生する単語が含まれています。 たとえば、これらの会社名「XYZ Inc。」、「XYZ Incorporated」、「XYZLLC」について考えてみます。 すべての会社名は同じですが、分析プロセスではそれらを一意であると見なすことができ、Inc.、LLC、Incorporatedなどの単語を削除すると分析の精度を向上させることができます。
- データを照合して重複を検出する –データセットには通常、同じエンティティの複数のレコードが含まれています。 顧客名のわずかな違いにより、チームは顧客データベースに複数のエントリを作成する可能性があります。 クリーンで標準化されたデータセットには、エンティティごとにXNUMXつのレコードという一意のレコードが含まれている必要があります。
構造化データと非構造化データ
デジタルデータの最新の側面のXNUMXつは、数値フィールドまたはテキスト値への適合に一貫性がないことです。 構造化データは、企業が通常使用しているものです– スプレッドシートや表などの特定の形式で保存されたデータで、作業が簡単になります。 ただし、企業は非構造化データを扱うようになっています…これは 定性 データ。
非構造化データの例は、テキスト、オーディオ、およびビデオソースからの自然言語です。 マーケティングでよく見られるのは、オンラインレビューからブランドの感情を拾い集めることです。 星のオプションは構造化されていますが(たとえば、1から5の星のスコア)、コメントは構造化されておらず、定性的データは自然言語処理で処理する必要があります(NLP)感情の定量的値を形成するためのアルゴリズム。
クリーンなデータを確保する方法は?
クリーンなデータを確保するための最も効果的な方法は、プラットフォームへのすべてのエントリポイントを監査し、プログラムで更新してデータが適切に入力されていることを確認することです。 これは、いくつかの方法で実行できます。
- 必須フィールド –フォームまたは統合が特定のフィールドを通過する必要があることを確認します。
- フィールドデータ型の利用 –選択用の限定リスト、データをフォーマットするための正規表現を提供し、データを適切なデータタイプに格納して、データを適切なフォーマットとタイプに制限します。
- サードパーティのサービス統合 –サードパーティのツールを統合して、アドレスを検証するアドレスフィールドなど、データが適切に保存されるようにすることで、一貫性のある高品質のデータを提供できます。
- 検証 –顧客に電話番号または電子メールアドレスを検証してもらうことで、正確なデータが確実に保存されるようになります。
エントリポイントは単なるフォームである必要はなく、あるシステムから別のシステムにデータを渡すすべてのシステム間のコネクタである必要があります。 多くの場合、企業はプラットフォームを利用して、システム間でデータを抽出、変換、およびロード(ETL)して、クリーンなデータが確実に保存されるようにします。 企業は実行することが奨励されています データの発見 監査により、管理下にあるデータのすべてのエントリポイント、処理、および使用ポイントを文書化します。 これは、セキュリティ標準とプライバシー規制へのコンプライアンスを確保するためにも重要です。
データをクリーンアップする方法は?
クリーンなデータを用意するのが最適ですが、データをインポートおよびキャプチャするためのレガシーシステムと緩い規律が存在することがよくあります。 これにより、データクレンジングはほとんどのマーケティングチームの活動の一部になります。 データクレンジングプロセスに関連するプロセスを調査しました。 組織がデータクレンジングを実装できるオプションの方法は次のとおりです。
オプション1:コードベースのアプローチを使用する
Python & R データを操作するためのコーディングソリューションに一般的に使用されるXNUMXつのプログラミング言語です。 データの性質に応じてアルゴリズムを調整できるため、データをクリーンアップするスクリプトを作成することは有益に思えますが、それでも、これらのスクリプトを長期間維持することは困難な場合があります。 さらに、このアプローチの最大の課題は、特定のシナリオをハードコーディングするのではなく、さまざまなデータセットで適切に機能する一般化されたソリューションをコーディングすることです。
オプション2:プラットフォーム統合ツールの使用
多くのプラットフォームは、プログラマティックまたはコードレスを提供します コネクタ 適切な形式でシステム間でデータを移動します。 組み込みの自動化プラットフォームが人気を集めているため、プラットフォームを自社のツールセット間で簡単に統合できます。 これらのツールには、あるシステムから別のシステムへのデータのインポート、クエリ、または書き込み時に実行できるトリガーまたはスケジュールされたプロセスが組み込まれていることがよくあります。 のようないくつかのプラットフォーム ロボットプロセス自動化 (RPA)プラットフォームは、データ統合が利用できない場合でも画面にデータを入力できます。
オプション3:人工知能の使用
実際のデータセットは非常に多様であり、フィールドに直接制約を実装すると、不正確な結果が生じる可能性があります。 これは人工知能(AI)非常に役立ちます。 正確、有効、正確なデータでモデルをトレーニングし、トレーニングされたモデルを受信レコードで使用すると、異常のフラグ付け、クレンジングの機会の特定などに役立ちます。
データクレンジング中にAIで強化できるプロセスのいくつかを以下に示します。
- 列の異常を検出します。
- 誤った関係の依存関係を特定する。
- クラスタリングによる重複レコードの検索。
- 計算された可能性に基づいてマスターレコードを選択します。
オプション4:セルフサービスデータ品質ツールの使用
特定のベンダーは、ツールとしてパッケージ化されたさまざまなデータ品質機能を提供しています。 データクレンジングソフトウェア。 業界をリードする独自のアルゴリズムを使用して、異なるソース間でデータをプロファイリング、クレンジング、標準化、照合、およびマージします。 このようなツールはプラグアンドプレイとして機能し、他のアプローチと比較して最小限のオンボーディング時間を必要とします。
データラダー
データ分析プロセスの結果は、入力データの品質と同じくらい良好です。 このため、データ品質の課題を理解し、これらのエラーを修正するためのエンドツーエンドのソリューションを実装することで、データをクリーンで標準化し、意図した目的で使用できるようにすることができます。
Data Ladderは、一貫性のない無効な値を排除し、パターンを作成および検証し、すべてのデータソースにわたって標準化されたビューを実現し、高いデータ品質、精度、および使いやすさを保証するのに役立つ機能豊富なツールキットを提供します。