Pythonで欠損値を確認してみる

環境設定が終わり、基礎的な使用方法を理解しました。そしてデータの概要を確認データの可視化まで行うことができました。今回は欠損値の確認をしていきます。

欠損値を確認する

欠損値があるかを確認する

欠損とは何らかの理由で、データの値が入っていない状態のことをいいます。
欠損の有無を確認する為にはisnull関数を使います。

A.isnull()

こんな感じで出力されます。欠損値の時、Trueと表示されます。ただ、これだけ全部の値を確認するのは大変なので各列ごとに欠損が含まれるかどうかを確認していきましょう。

各列ごとに欠損が含まれるかどうかを確認する

isnull関数のあとにany関数を付け加えます。※1つ以上欠損値を含んでいる場合、Trueと表示されます

A.isnull().any()

各列に欠損値が幾つあるか数えてみる

True=欠損があることは分かったけれど、どれくらい欠損してるのかがわからないと対応しづらいので具体的に何個欠損値があるかを確認しましょう。sumを使用することで何個欠損しているかわかります。

A.isnull().sum()

欠損値を処理する

欠損値があると分析ができないことがあるので欠損値の処理をしましょう。欠損値の処理は別のなんらかの値を代入するか、欠損値を含む行を削除するかで対応します。

欠損値を補間する

今回はfillna関数を使い、欠損値を0で補間してみます。

A.fillna(0)

欠損値を削除する

別のやり方としてdropna関数を使い、欠損値を削除してみます。
ある列に欠損値があった場合のみ、その行を削除したい場合はオプションとしてsubset=[ ]を使います。

A.dropna(subset=[“kcal”])

欠損値がなくなったことを確認する

行の中の値がそれぞれ幾つあるかを確認したい場合は、value_counts関数を使います。これで欠損値がないかを確認します。

A[“precipitation”].value_counts()

ここで欠損値の処理が完了しました。今度からやっと詳細な分析に入ります。