データサイエンス 箱ひげ図(Box chart)説明 どんな時に使うと便利か

データサイエンス

データの可視化の方法は様々なものがありあます、その中でも箱ひげ図(Box chart)はデータの分布を可視化するときにとても有効です。

初心者の方は使いにくいと思いますので、わかりやすく説明します。

箱ひげ図の説明

箱ひげ図の説明

箱ひげ図は、データの分布状況を表現する方法です。

上の図で説明していきます。

まずは箱です。

箱の下側の線が「第一四分位数」です。データの小さいほうから25%目のデータがある位置です。

箱の中央の赤い線は「第二四分位数」です。データの小さいほうから50%目のデータがある位置です。

箱の上側の線は「第三四分位数」です。データの小さいほうから75%目のデータがある位置です。

箱の幅がデータの中央50%(25%~75%)が存在する範囲を表現しています。

ひげ

続いてひげの説明です。

ひげの使い方は、いくつか種類があるのですが、ここではturkeyの手法で描画しています。

下側に伸びているひげは、第一四分位ー1.5×IQRの位置より上で一番近いデータの位置です。

上側に伸びているひげは、第三四分位+1.5×IQRの位置より下で一番近いデータの位置です。

少しわかりにくいですが、箱が中央50%(25%~75%)のデータが含まれる範囲を表現しているのに対して、もう少し広めを表現していると思ってください。

注意 ひげが、最大値と最小値を表している書き方もあります。

外れ値

ひげの外側の〇は外れ値を表現しています。何かしらの外れ値検定で判断したものです。

外れ値が多いときは、分布がきたない(偏っていたり、山がひとつでなかったり)可能性があります。

ヒストグラムで3つのデータの分布を比較

箱ひげ図は、データの分布を比較するときに便利です。その便利さをわかってもらうために、まずは、ヒストグラムでデータの分布を比較してみます。

ヒストグラムで分布を比較

上の図は、有名なiris(アヤメ)のデータセットで、「setorra」(赤色グラフ)「versicolor」(青色グラフ)「verginical」(緑色グラフ)三種類のあやめのガクの長さをヒストグラムで表現したものです。

なんとなく、分布が異なっているのがわかるかと思います。平均・中央値 分散も違いますかね。

ただ、なんとなくごちゃごちゃしていてスマートな表現ではないですね。。。

箱ひげ図で3つのデータの分布を比較

箱ひげ図で表現するとこうなります。。。

アヤメのガクの長さ 箱ひげ図

左から「setorra(1)」「versicolor(2)」「verginical(3)」の分布を表現しています。

箱・髭ともに、setorraは、短い(下側)にあるため、setorraのガクの長さはほかに比べて短いことがわかります。

また、箱の幅、髭の幅も狭いため、ばらつきも小さいことがわかります。

外れ値は「verginical(3)」にひとつあるだけで、どれもきれいな分布(偏りのない)となっていることもわかります。

分布を比較するという目的でしたら、箱ひげ図のほうがすっきりしていますね。

まとめ

データ分析初心者の方向けに、箱ひげ図の説明をしました。

箱ひげ図は、データの分布状況を比較するときに、とても分かりやすく表現できます。

ヒストグラムだけでなく、箱ひげ図にもチャレンジしてみてください。

こちらの記事では初心者データサイエンティスト向けに、必要なスキル項目をMAP化しております。よかったら参考になさってください。↓↓↓↓

初心者向け データサイエンティストに必要なスキル36項目
これからデータサイエンティストを目指す方向けに、身に着けてほしいスキル36項目を説明します。データサイエンティストが学ぶべき項目は多岐にわたりますが、初心者の方が初めに学んでほしい重要な項目をリストアップしました。
タイトルとURLをコピーしました