リレーショナルデータベースでデータを管理する前に、しなくてはいけないことはデータをデータベースに登録できる形に整形することです。
このことをデータクレンジングといいます。
これを行わずに何も考えずにデータベースに登録する場合、フォーマットが非効率であったりなど、データが「汚れていること」が多々あります。
特に厄介ないのが、今までデータベースでデータを管理していないのに、データベースでこれから登録しようとしたり、リレーショナルデータベース以外の管理方法でデータが利用されていたようなケースです。
その場合下記のような流れでデータを登録していくことが多いです。
- オリジナルのデータ
- データフォーマットの調査
- データクレンジング
- オリジナルのデータ
- データベース設計
- データベース登録
代表的なデータクレンジングの内容
一意キーの特定
これは紙などでデータを管理していた場合に起こりがちですが、レコードを特定するキーがないことです。
例えば注文書の記録を集めた場合、顧客情報をそのままかいており、顧客名には複数の表記が見られたり(渡邊と渡辺)、そもそも特定ができないもの(同姓同名の注文者)もあります。
この場合、新たにキーを作成することから始める必要があります。
名寄せ
名寄せとは名前の似通った名前を寄せ集めて統合することです。
人名や企業名の表記ゆれを解消して名称を統一します。例 (株)武田産業 武田産業株式会社
名寄せが必要になるのは情報を記録する際にフリーハンド(フォーマットがない・ゆるい)の入力を許していることが原因です。このようなことが起こると以前のエントリーで話したようなダブルマスタといったバッドノウハウを生み出すことにもなります。