Python を使用してデータセットから外れ値を削除するにはどうすればよいですか?

データの分野では、私たちが行うことすべてがデータのみを中心に行われるため、サイエンスデータが大きな役割を果たします。企業はデータを扱う専門人材を雇用しており、この分野での雇用可能性は急速に高まっています。この分野が成功した理由は、データ処理のための特定のツールが組み込まれたためであり、これらは主にプログラミング言語、データ視覚化ツール、データベース管理ツールです。

これらのおかげで、あらゆる種類のデータの取り扱いや、より安全な場所への保管が容易になりました。このような進歩が起こっている中で、注意すべきことの 1 つは、これらの巨大なデータセットの処理中に何らかの間違いが発生すると、企業が取り組んでいるプロジェクトの完全な失敗につながるということです。従業員は、ゴミではなくデータについて有意義な洞察を提供することで、雇用主のニーズを満たさなければなりません。前述したように、プログラミング言語のおかげでデータ処理が非常に簡単になりました。これは、これらのプログラミング言語を使用すると、データサイエンティストがデータを試したり、微調整してさまざまな出力を取得したり、最適なものを選択したりする自由が与えられるためです。そのようなプログラミング言語の 1 つが Python です。これは、データサイエンス関連のアクティビティを実行するための強力で最も推奨される言語です。

データについて言えば、使用するデータは適切にクリーニングされ、パフォーマンスの低下につながる可能性のある不審な点が含まれていない必要があります。このような疑わしい点は外れ値と呼ばれ、企業が望む場合には、これらの外れ値を削除することが不可欠です。それでは、Python プログラミング言語を使用してこれらの外れ値を削除する方法を見てみましょう。

異常値の除去

外れ値は、他の点から遠く離れたデータセット内の点と呼ばれます。それで、それを取り除くにはどうすればよいでしょうか？ここですべての答えが見つかります。

外れ値の視覚化

データセット内の外れ値を視覚化するには、箱ひげ図や散布図などのさまざまなプロットを使用できます。箱ひげ図は、データの四分位グループを示します。パーセンタイルに基づいてデータをグループ化します。ポイントが四分位範囲内にある場合は分析に使用され、範囲外にある場合は外れ値と呼ばれ、データセットから削除されます。箱ひげ図は個々の点で使用でき、これは単変量分析と呼ばれます。また、1 つのカテゴリ変数ともう 1 つの連続変数がある場合は、箱ひげ図も使用できます。これは多変量解析と呼ばれます。

箱ひげ図の図的表現を以下に示します。

散布図は、さまざまな変数を相互に比較する X 座標と Y 座標が必要なため、主に二変量解析に使用されるプロットのタイプです。このタイプのプロットは、すべての点から遠く離れた点を特定することで外れ値を検出するのに役立ちます。つまり、最大点がグラフの左側の領域に集中し、1 つまたは 2 つがグラフの右側にある場合、これら 2 つの点が外れ値になります。

散布図の図を以下に示します。

異常値の除去

Z スコアの使用:これは、データセットから外れ値を削除する方法の 1 つです。このアプローチの背後にある原理は、変数の標準正規分布を作成し、ポイントが標準偏差 +-3 に該当するかどうかを確認することです。値がこの範囲外にある場合、これらは外れ値と呼ばれ、削除されます。この操作の実装は、Python を使用して以下に示されます。

パーセンタイル/四分位の使用:これは、データセット内の外れ値を検出する別の方法です。ここでは箱ひげ図を使用してデータを視覚化し、25 の値を見つけます。^番目そして75^番目データセットのパーセンタイル値。これが完了したら、5 を減算して四分位間スコアを求めます。^番目25 からのパーセンタイル値^番目パーセンタイルを計算し、それに 1.5 を乗じてデータの下限と上限を求めます。下限と上限から離れた点は外れ値と呼ばれます。この操作の実装は、Python を使用して以下に示されます。