水の拷問–分析のアナロジーが行き過ぎ

ドリップ分析

水と同様に、データにはさまざまな形式があります。 人間の心は、データが非常に多いため、私たちがやってくるデータのほとんどを除外するように進化しました。

目と耳を開くと、データはいたるところにあります。 壁の色、エアコンの音、隣人のコーヒーの匂いが湿気のように扱われます。 水は常に空気中にありますが、あまり注意を払うことは役に立ちません。

水が凝縮して霧になると、水を見るように強制され、周囲の世界を理解することがますます困難になります。 不完全なデータセット、破損したデータ、悪い科学、誤った結論、認知バイアスはすべて、霧の中で道に迷うことになります。

データは雨のように落ちます。 ほんの少しの場合、それは非常に満足のいくものではありません。車を汚して会話を混乱させるのに十分です。 誰かがいくつかのあいまいなソースから収集したランダムなデータポイントを吐き出すと、眼鏡のスポットを拭き取っていることに気づきます。

  • 古くなった水 浅い池では危険です。 信頼性の低い供給から収集され、クレンジングも正規化もされておらず、停滞したままになっているデータは、簡単に誤った結論につながる可能性があります。
  • A 安定したトリクル 食堂を埋めたり、森林の生態系を維持したりするには、水の量で十分です。 たったXNUMXつのデータポイント(送信された電子メールの数、開かれた電子メールの数、クリックされた電子メールの数)だけで、マーケティングプログラムを維持できます。
  • A より健康的な流れ 小さな小川の形のデータのデータは、入浴に使用できます。 継続的なデータフローにより、ベンチマークと履歴比較が可能になります。 ランディングページの最適化は、安定したコンバージョンデータで実現できます。
    A ささやかな川 製材所に電力を供給して、木材を見たり小麦を挽いたりすることができます。 レコメンデーションエンジンは、ショッピングカートの価値を高めるために、少数の支流からの信頼できる貢献のみを必要とします。
  • A は巨大な水車を推進することができ、十分な情報の流入はリアルタイムの動的コンテンツシステムを推進することができます。
  • A それは十分に広くて深いので、運輸業界全体をサポートすることができます。 十分なデータは、広告ネットワーク、ポイントカードプログラムのデータアグリゲーター、およびデータブローカーからのCookieのコレクションの形でバージや貨物船を浮かせることができます。

データが予想される時間に予想される量で到着すると、データをキャプチャしてチャネル化し、使用することができます。 灌漑システム、ダム、貯水池は、制御の感覚を提供し、運河、閘門、ダムを備えた拡大し続けるインフラストラクチャの構築を可能にします。 データウェアハウスは、信頼性の低いフローに基づいて構築されています。

清潔さは敬虔さの隣にあります

きれいな水は、生活、灌漑、発電所の稼働などの成功に不可欠です。「きれいな」の定義は、目的によって変わる可能性があります。 発電所を冷却する藻類が水中にある場合は問題ありませんが、飲料水に10ppbを超えるヒ素が含まれている場合は許容されません。

データは同じです。 ダイレクトメールアプリケーションでは、医師に郵送しない限り、人の肩書き(Mr.、Mrs.、Ms。)があるかどうかは重要ではありません。 しかし、汚いデータは毎回あなたをつまずかせます。

米国のチーフデータサイエンティストとして、 DJパティル、第XNUMXラウンドのCTOサミットで、次のように述べています。 私はそれを保証します。 事後にそれをクリーンアップしようとすると、少なくとも数ヶ月かかります。」

水を沸点まで加熱すると、産業革命全体に電力を供給することができます。 データは同じことをしているようです。 コンピューターが保存および計算できるようになった瞬間から、データは、ストレージ機器を作成するのと同じ速さで収集されてきました。

データレイク

これらの支流からのデータが工場のエンジンを介して滴り落ちると、すべてがダムの後ろの湖に行き着きます。 データは制御された方法で出力されるため、データ業界のタービンに電力を供給します。 GoogleやFacebookのような名前のデータ処理の巨大なエンジン。 ここでは干ばつはありません。

そして最後に、アナリストが飛び込むのを待っている深い水たまりがあります。スキューバギアと槍銃を手に、アナリストは深いところを調査し、新しい地面をマッピングし、新しい種を発見します。 データエクスプローラーになるのはとてもエキサイティングな時期です。

だからこそ、彼らの多くが eMetricsサミット 次の機会は、2002年27月1日から2015月XNUMX日までのボストンです。

eMetricsサミット登録

遠すぎた橋

そして、次のグランドキャニオンを切り開くためのデータの力は何ですか? 構造化データの氷河融解はどうですか? プライバシーをますます意識する世界で、どのように廃水を処理するのでしょうか。

それらはまた別の時間と橋の下の水についての質問です。

どう思いますか?

このサイトはAkismetを使用して迷惑メールを減らします。 コメントの処理方法を学ぶ.