ホームIT「データクレンジング」とは? データ活用の基本となる前処理を解説

IT Insight

「データクレンジング」とは? データ活用の基本となる前処理を解説

レンテックインサイト編集部

データ活用に注目が集まる現代、皆さんは“データの品質”にどれだけ注目したことがあるでしょうか。
ものづくり基盤技術振興基本法に基づき2001年から毎年発表されているものづくり白書。その2022年版、第7章「事業環境の変化」第2節「DXによる競争力向上」においても、「データ流通(データの効率的な収集・活用)」と並んで重要と述べられたのが「データ品質」です。(出典:経済産業省「2022年版ものづくり白書(ものづくり基盤技術振興基本法第8条に基づく年次報告)」
本記事では、そんなデータ品質の標準化において欠かせない「データクレンジング」に注目。データクレンジングとは何か、どのように実行すればいいのかについて解説します。

“きれいな”データを用意する「データクレンジング」の意味と価値とは?

データクレンジングは、データから誤りや表記の不統一、重複といった問題を取り除き、データ分析や機械学習に活用可能な“きれいな”データを用意する作業です。コンピューターは通常、「(株)」と「株式会社」や、全角・半角のように表記・形式が異なる文字列を同一の意味のデータとして扱えません。また、SFA/CRM間で同じ顧客のデータを別々に登録しているなどデータの重複が起こったり、データが古くなってしまっていたりする場合もあるでしょう。

そのようなダーティデータ(汚れたデータ)をクレンジング(洗ってきれいにする)のが「データクレンジング」です。データ品質を向上・標準化させることでデータを用いた分析・予測の精度が高まるだけでなく、目当てのデータを見つけたり加工したりするためにかかっていた時間・労力も削減することが可能になります。

なお、データクレンジングはデータクリーニング、データスクラビングと呼ばれることもあります。また、顧客データ管理などでよく用いられる「名寄せ」は、別々となってしまったデータを一つに統合することを指します。多くの場合、名寄せの過程でもデータクレンジングが行われます。

近年AIを用いたデータ分析や予測などにも注目が集まっていますが、データクレンジングに代表される前処理がその成功を大きく左右するとも言われます。画像や音声をデータとして用いる場合も、ダーティデータを取り除くことは欠かせません。データの品質不足は年間数億~数十億円規模の損失を企業にもたらしているとする調査結果もあります。

データクレンジングの方法と基本的な方向性

それでは、データクレンジングの基本的な方法について見ていきましょう。
データクレンジングは、専用のサービスを利用する、専用のツールを利用する、プログラミングやExcelを駆使する、のいずれかで行います。どれがベストな選択肢かは予算、データ量、担当人材のデータクレンジングに対する理解によって異なります。専用ツールは体験版が無償で提供されていることも多いため、まずはそちらを利用してツールの使用感とともにデータクレンジングの基本的なイメージを具体化してみてもよいでしょう。

Excelを用いたデータクレンジングについては「総務省 ICTスキル総合習得プログラム」コース3「データ分析」の教材が無償で利用できます。公式サイトにて利用規約を確認した上で、活用してみることをおすすめします。(出典:総務省 ICTスキル総合習得プログラム)

いずれの手法を用いる場合でも、データクレンジングで目指す方向性の基本は変わりません。例を挙げれば、下記のようになります。

  1. 表記ルールを設定し統一する
    • 「(株)」と「株式会社」
    • 漢字「様」とひらがな「さま」
    • 大文字「A」と小文字「a」
    • 半角「1」と全角「1」
    • スペースの有無(「山田太郎」と「山田 太郎」)
    • ハイフンの有無(「03-xxxx-xxxx」「03xxxxxxxx」)
    • 単位(「7.5メートル」と「750センチメートル」)
  2. 誤りの修正
    • 「齋藤」と「斎藤」など細かい漢字の表記の違いにも注意
    • 古くなってしまった情報も誤りとし、定期的に更新する
  3. 空白、異常値の置き換え
    • NA(Not Available:欠損値)、NULL(ヌル:非存在)、NAN(Not a Number:非数値)、などを用いる

データクレンジングの5ステップ

データクレンジングは実際に行う前、そして後のプロセスも重要です。
それらを含めると以下の5ステップにまとめられるでしょう。

  1. 既存のデータセットを調査し、目的を定める
  2. データクレンジングの対象となるデータを選別・分類する
  3. 簡便なデータクレンジングを行う
  4. より詳細なデータクレンジングを行う
  5. 定期的にデータを見直し、品質維持に努める

データクレンジングは自分たちで行える範囲に収まるのか、どのようなツールが適しているのか、どれほどのコストが見込まれるのか……など、前提となる要素を明らかにするためにも既存のデータセットを調査し、クレンジングの目的を定めることは欠かせません。
データガバナンスの向上のため既存の管理体制を見直すのか、見込み客のリスト作成に利用するのか、はたまた機械学習のデータセットとして利用するのか。目的によって、求められるデータ整理やクレンジングの難易度は左右されます。

またデータを利用する部署や人数によっても必要なデータのゴールは異なります。まずは表記の統一や誤り訂正など共通する箇所のクレンジングを済ませた上で、当事者や専門知識のある社員しかわからない部分のクレンジングにも取り組むかなどの方針を定めることが、スムーズなクレンジングの進行やコストにも関わってくるでしょう。

データ品質は放っておけば徐々に劣化していきます。数カ月経てば元通り、という事態をさけるためにデータの品質をモニタリングし、クレンジングの必要性を判断する担当者を置くことにも忘れず取り組みましょう。

データ品質の向上は、連携によるシナジー効果にもつながる

データ品質を高めるにあたって不可欠なデータクレンジングについて取り上げてまいりました。データ品質に水準を設け標準化に取り組むことで、データを単独で活用する際のメリットが得られるだけでなく、データ間を連携させさらなる効果を得るといった施策にもつなげやすくなります。
自社だけでなくサプライチェーンや業界といった広い視点での連携が求められる時代だからこそ、データ品質の管理に取り組んでいきましょう。

IT Insightの他記事もご覧ください

Prev

Next