データの可視化の方法は様々なものがありあます、その中でも箱ひげ図(Box chart)はデータの分布を可視化するときにとても有効です。
初心者の方は使いにくいと思いますので、わかりやすく説明します。
箱ひげ図の説明
箱ひげ図は、データの分布状況を表現する方法です。
箱
上の図で説明していきます。
まずは箱です。
箱の下側の線が「第一四分位数」です。データの小さいほうから25%目のデータがある位置です。
箱の中央の赤い線は「第二四分位数」です。データの小さいほうから50%目のデータがある位置です。
箱の上側の線は「第三四分位数」です。データの小さいほうから75%目のデータがある位置です。
箱の幅がデータの中央50%(25%~75%)が存在する範囲を表現しています。
ひげ
続いてひげの説明です。
ひげの使い方は、いくつか種類があるのですが、ここではturkeyの手法で描画しています。
下側に伸びているひげは、第一四分位ー1.5×IQRの位置より上で一番近いデータの位置です。
上側に伸びているひげは、第三四分位+1.5×IQRの位置より下で一番近いデータの位置です。
少しわかりにくいですが、箱が中央50%(25%~75%)のデータが含まれる範囲を表現しているのに対して、もう少し広めを表現していると思ってください。
注意 ひげが、最大値と最小値を表している書き方もあります。
外れ値
ひげの外側の〇は外れ値を表現しています。何かしらの外れ値検定で判断したものです。
外れ値が多いときは、分布がきたない(偏っていたり、山がひとつでなかったり)可能性があります。
ヒストグラムで3つのデータの分布を比較
箱ひげ図は、データの分布を比較するときに便利です。その便利さをわかってもらうために、まずは、ヒストグラムでデータの分布を比較してみます。
上の図は、有名なiris(アヤメ)のデータセットで、「setorra」(赤色グラフ)「versicolor」(青色グラフ)「verginical」(緑色グラフ)三種類のあやめのガクの長さをヒストグラムで表現したものです。
なんとなく、分布が異なっているのがわかるかと思います。平均・中央値 分散も違いますかね。
ただ、なんとなくごちゃごちゃしていてスマートな表現ではないですね。。。
箱ひげ図で3つのデータの分布を比較
箱ひげ図で表現するとこうなります。。。
左から「setorra(1)」「versicolor(2)」「verginical(3)」の分布を表現しています。
箱・髭ともに、setorraは、短い(下側)にあるため、setorraのガクの長さはほかに比べて短いことがわかります。
また、箱の幅、髭の幅も狭いため、ばらつきも小さいことがわかります。
外れ値は「verginical(3)」にひとつあるだけで、どれもきれいな分布(偏りのない)となっていることもわかります。
分布を比較するという目的でしたら、箱ひげ図のほうがすっきりしていますね。
まとめ
データ分析初心者の方向けに、箱ひげ図の説明をしました。
箱ひげ図は、データの分布状況を比較するときに、とても分かりやすく表現できます。
ヒストグラムだけでなく、箱ひげ図にもチャレンジしてみてください。
こちらの記事では初心者データサイエンティスト向けに、必要なスキル項目をMAP化しております。よかったら参考になさってください。↓↓↓↓