アドレス標準化101:利点、方法、およびヒント

アドレス標準化101:利点、方法、およびヒント

リスト内のすべてのアドレスが同じ形式でエラーがないことを最後に見つけたのはいつですか。 決して、そうではありませんか?

データエラーを最小限に抑えるために会社が講じる可能性のあるすべての手順にもかかわらず、手動のデータ入力によるスペルミス、フィールドの欠落、先頭のスペースなどのデータ品質の問題に対処することは避けられません。 実際、レイモンドR.パンコ教授は 出版された論文 特に小さなデータセットのスプレッドシートデータエラーは18%から40%の範囲である可能性があることを強調しました。  

この問題に対処するには、アドレスの標準化が優れたソリューションになる可能性があります。 この投稿では、企業がデータの標準化からどのように利益を得ることができるか、そして意図した結果をもたらすためにどのような方法とヒントを検討する必要があるかを強調しています。

アドレス標準化とは何ですか?

住所の標準化、または住所の正規化は、住所レコードを識別し、公認の郵便サービス標準に沿ってフォーマットするプロセスです。 米国郵政公社(USPS)。

ほとんどの住所は、USPS標準に準拠していません。これは、標準化された住所を、完全に綴られた住所、郵便サービスの標準略語を使用して省略された住所、または現在の郵便サービスのZIP +4ファイルに示されている住所として定義しています。

住所基準

住所の標準化は、住所の詳細(ZIP +4およびZIP + 6コードなど)の欠落、句読点、大文字と小文字、間隔、およびスペルの誤りが原因で、一貫性のない、またはさまざまな形式の住所エントリを持つ企業にとって差し迫った必要性になります。 この例を以下に示します。

標準化された郵送先住所

表からわかるように、すべての住所の詳細にはXNUMXつまたは複数のエラーがあり、必要なUSPSガイドラインを満たしているものはありません。

住所の標準化 アドレスマッチングおよびアドレス検証と混同しないでください。 同様の機能がありますが、住所の検証とは、住所レコードがUSPSデータベースの既存の住所レコードに準拠しているかどうかを確認することです。 一方、住所照合とは、XNUMXつの類似した住所データを照合して、同じエンティティを参照しているかどうかを確認することです。

アドレスを標準化する利点

データの異常をクレンジングする明らかな理由は別として、アドレスの標準化は企業にさまざまなメリットをもたらします。 これらには以下が含まれます:

  • アドレスを確認する時間を節約します。 アドレスを標準化しないと、ダイレクトメールキャンペーンに使用されたアドレスリストが正確であるかどうかを疑う方法はありません。ただし、メールが返送されるか、応答がない場合を除きます。 さまざまな住所を正規化することにより、スタッフが何百もの郵送先住所を正確に選別することで、大幅な工数を節約できます。
  • 郵送料を削減します。 ダイレクトメールキャンペーンは、ダイレクトメールキャンペーンで請求や配送の問題を引き起こす可能性のある間違ったアドレスや間違ったアドレスにつながる可能性があります。 データの一貫性を向上させるためにアドレスを標準化すると、返信メールや未配信メールを減らすことができ、ダイレクトメールの応答率が高くなります。
  • 重複するアドレスを排除します。 さまざまな形式とエラーのあるアドレスを使用すると、連絡先にXNUMX倍の数の電子メールが送信され、顧客満足度とブランドイメージが低下する可能性があります。 あなたのアドレスリストをきれいにすることはあなたの会社が無駄な配達費用を節約するのを助けることができます。

アドレスを標準化する方法は?

アドレス正規化アクティビティは、価値があるためにUSPSガイドラインを満たす必要があります。 表1で強調表示されているデータを使用して、正規化時に住所データがどのように表示されるかを次に示します。

住所標準化の前後

アドレスの標準化には、4段階のプロセスが含まれます。 これも:

  1. インポートアドレス: Excelスプレッドシート、SQLデータベースなどの複数のデータソースからすべてのアドレスをXNUMXつのシートに収集します。
  2. エラーを検査するためのプロファイルデータ: アドレスリストに存在するエラーの範囲とタイプを理解するために、を使用してデータプロファイリングを実行します。 これを行うことで、あらゆる種類の標準化を実行する前に修正が必要な潜在的な問題領域の大まかなアイデアを得ることができます。  
  3. USPSガイドラインを満たすためにエラーをクリーンアップします。 すべてのエラーが検出されたら、アドレスをクレンジングし、USPSガイドラインに従って標準化できます。
  4. 重複するアドレスを特定して削除します。 重複するアドレスを特定するには、スプレッドシートまたはデータベースでダブルカウントを検索するか、正確なまたは あいまい一致 エントリを重複排除します。

アドレスを標準化する方法

リスト内のアドレスを正規化するには、XNUMXつの異なるアプローチがあります。 これらには以下が含まれます:

手動スクリプトとツール

ユーザーは、実行スクリプトとアドインを手動で検索して、さまざまな方法でライブラリからアドレスを正規化できます。

  1. プログラミング言語: Python、JavaScript、またはRを使用すると、ファジーアドレスマッチングを実行して、不正確なアドレスマッチを識別し、独自のアドレスデータに合わせてカスタム標準化ルールを適用できます。
  2. リポジトリのコーディング: GitHubはコードテンプレートとUSPSを提供します API アドレスの検証と正規化に使用できる統合。  
  3. アプリケーションプログラミングインターフェイス: を介して統合できるサードパーティのサービス 郵送先住所を解析、標準化、検証するためのAPI.
  4. Excelベースのツール: YAddress、AddressDoctor Excelプラグイン、Excel VBAマスターなどのアドインやソリューションは、データセット内の住所を解析および標準化するのに役立ちます。

このルートをたどることのいくつかの利点は、安価であり、小さなデータセットのデータをすばやく正規化できることです。 ただし、このようなスクリプトを使用すると、数千レコードを超える可能性があるため、非常に大きなデータセットや、異なるソースに分散しているデータセットには適していません。

住所確認ソフトウェア

既製の住所検証および正規化ソフトウェアを使用して、データを正規化することもできます。 通常、このようなツールには、統合されたUSPSデータベースなどの特定の住所検証コンポーネントが付属しており、アドレスを大規模に標準化するためのあいまい一致アルゴリズムに加えて、すぐに使用できるデータプロファイリングおよびクレンジングコンポーネントがあります。

ソフトウェアが持っていることも重要です キャス プロフェッショナル認定 USPSからのものであり、次の点で必要な精度のしきい値を満たしています。

  • 5桁のコーディング–欠落しているか正しくない5桁の郵便番号を適用します。
  • ZIP + 4コーディング–欠落または誤った4桁のコードを適用します。
  • 宅配インジケーター(RDI)–住所が住宅用か商業用かを判断します。
  • 配信ポイントの検証(水中スクーター)–住所がスイートまたはアパートの番号まで配信可能かどうかを判断します。
  • 強化された旅行ライン(eLOT)–キャリアルート内のアドオン範囲への最初の配信を示すシーケンス番号。昇順/降順コードは、シーケンス番号内のおおよその配信順序を示します。 
  • ロケータブルアドレス変換システムリンク(LACSLink)–911緊急システムを実装している地方自治体の新しい住所を取得する自動化された方法。
  • スイートLink® 顧客が提供できるようにする 改善されたビジネスアドレス情報 既知の二次(スイート)情報をビジネスアドレスに追加することにより、他の方法では不可能なUSPS配信シーケンスを可能にします。
  • そして、もっと...

主な利点は、CRM、RDBM、Hadoopベースのリポジトリやジオコードデータなどの異種システムに格納されている住所データを簡単に検証および標準化して、経度と緯度の値を生成できることです。

制限に関しては、そのようなツールは手動のアドレス正規化方法よりもはるかに多くの費用がかかる可能性があります。

どちらの方法が良いですか?

アドレスリストを拡張するための適切な方法の選択は、アドレスレコードの量、テクノロジスタック、およびプロジェクトのタイムラインに完全に依存します。

アドレスリストがXNUMXレコード未満の場合は、PythonまたはJavaScriptを使用して標準化することをお勧めします。 ただし、複数のソースにタイムリーに拡散されたデータを使用してアドレスの信頼できる唯一の情報源を実現することが差し迫ったニーズである場合は、CASS認定のアドレス標準化ソフトウェアの方が適しています。