Box và Whisker Plot (còn hotline là Boxplot) là một dạng biểu đồ hay được dùng trong khoa học dữ liệu và thống kê. Trong bài này chúng ta cùng tìm hiểu về Boxplot và một số điểm thú vị của nhiều loại biểu đồ gia dụng này.

Bạn đang xem: Biểu đồ hộp và râu

Mục lục 2. Trình bày dữ liệu dùng Boxplot 5. Kết luận 1. Boxplot là gì?

Boxplot là 1 dạng biểu thiết bị thể hiện bày bán dữ liệu của những thuộc tính số trải qua các “tứ phân vị” cùng được giới thiệu lần đầu bởi vì John Tukey vào khoảng thời gian 1970.

Tứ phân vị là một khái niệm trong thống kê dùng để mô tả sự phân bổ và sự phân tán của tập dữ liệu, tất cả 3 giá chỉ trị: $Q_1$, $Q_2$ cùng $Q_3$ phân chia tập dữ liệu thành 4 phần bởi nhau.


*
lấy một ví dụ về Boxplot (Wikipedia)

Boxplot thể hiện những phân phối dữ liệu, nghĩa là giúp chúng ta biết được độ dàn trải của các điểm dữ liệu như thế nào, dữ liệu có đối xứng không, phân bố rộng hay hẹp, giá bán trị nhỏ nhất, lớn nhất và những điểm ngoại lệ.


*
Các thông số kỹ thuật Boxplot thể hiện

Biểu thiết bị Boxplot diễn tả 5 thông số:

Median: Trung vị của tập dữ liệu, có nghĩa là giá trị ở thành phần giữa.First quartile (Q1): Trung vị giữa Median với phần tử nhỏ dại nhất vào tập dữ liệu. Còn gọi là 25th Percentile.Third quartile (Q3): Trung vị giữa Medianphần tử lớn nhất trong tập dữ liệu. Nói một cách khác là 75th Percentile.Minimum: Phần tử nhỏ tuổi nhất không hẳn ngoại lệ.Maximum: phần tử lớn nhất không hẳn là nước ngoài lệ.

Ví dụ cụ thể trong phần sau sẽ giúp đỡ hiểu hơn về phong thái vẽ Boxplot tự dữ liệu.

2. Trình bày dữ liệu cần sử dụng Boxplot

2.1. Vẽ Boxplot

Ví dụ sau sẽ giúp chúng ta hiểu rõ về cách xây dựng Boxplot.

VD: Một công ty hàng đánh dấu khoảng cách từ người tiêu dùng đi từ bên đến quán ăn như sau:24, 10, 23, 11, 21, 22, 23, 15, 23, 21, 23, 23, 22, 24, 24, 10, 24, 25, 27, 27, 19

Trước tiên để kiếm được các số liệu để vẽ Boxplot cần bố trí lại dữ liệu:

10, 10, 11, 15, 19, 21, 21, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 25, 27, 27

Dữ liệu gồm 21 thành phần nên trung vị của chính nó là phần tử thứ 11 (Trường thích hợp số bộ phận là chẵn thì trung vị sẽ là giá trị trung bình của 2 thành phần đứng giữa).

Nên ta gồm $ Median = 23 $.

Xem thêm: Chuyển Sang Trang Mới Trong Word Nhanh Chóng Trên Mọi, 2 Cách Sang Trang Mới Trong Word Cực Đơn Giản

First quartile đang là trung vị của những điểm tài liệu bên trái Median. Vậy q1 sẽ là median của những điểm:

10, 10, 11, 15, 19, 21, 21, 22, 22, 23

nên $Q_1 = frac19+212=20$

Tương tự, q.3 là trung vị của các điểm dữ liệu bên cần Median.

23, 23, 23, 24, 24, 24, 24, 25, 27, 27

nên $Q_3 = frac24+242=24$

Với Boxplot không biểu thị ngoại lệ, MinimumMaximum vẫn là giá trị nhỏ dại nhất và mập nhất.

$$Minimum = 10$$$$Maximum = 27$$

Từ các thông số trên, bạn sẽ vẽ được:


*
Boxplot chưa xuất hiện ngoại lệ

2.2. Ngoại lệ

Trong thống kê, một ngoại lệ (outlier) là 1 điểm dữ liệu khác hoàn toàn đáng nhắc so với những quan sát khác. Một nước ngoài lệ có thể là bởi sự chuyển đổi trong phép đo hoặc là lỗi và thường thì được loại bỏ khỏi tập dữ liệu bởi vì nó có thể tạo ra vấn đề rất lớn trong so sánh thống kê.

Để tìm kiếm ngoại lệ, ta sử dụng thêm quan niệm IQR.

IQR (Interquartile Range) là một khái niệm vào thống kê tế bào tả, dùng đo lường độ phân tán của dữ liệu và được giám sát và đo lường bằng công thức:

$$IQR = Q_3 - Q_1$$

Điểm ngoại lệ đang là đông đảo điểm nhỏ tuổi hơn $Q_1 - 1.5IQR$ và to hơn $Q_3 + 1.5IQR$.

Với lấy ví dụ trước, ta bao gồm $IQR = 4$. Vậy các điểm ngoại lệ sẽ nhỏ hơn 14 và lớn hơn 30.

Như vậy ta xác định được Minimum new và Maximum new như sau:

$$Minimum = 15$$$$Maximum = 27$$

Ta vẽ lại được Boxplot vs những điểm nước ngoài lệ như sau:


*
Boxplot với ngoại lệ

Để bao gồm sự đối chiếu giữa tin tức mà Boxplot bộc lộ với dữ liệu thực tế, chúng ta có thể xem phân bổ điểm dữ liệu như sau:


*
phân bổ điểm tài liệu
3. Đọc hiểu Boxplot

Cho ví dụ sau: Phân bố độ tuổi của các học sinh tham tham dự các buổi tiệc được mô tả bằng Boxplot như bên dưới:


*
phân bố độ tuổi của các học viên tham tham dự lễ hội

Từ hình ta hoàn toàn có thể rút ra một vài dữ kiện sau:

Độ tuổi bé dại nhất là 7 tuổi.Độ tuổi lớn số 1 là 16 tuổi.Median là 13 tuổi.

Cùng chú ý các xác minh sau đây:

Tất cả những sinh viên bé dại hơn 17 tuổi. Xác minh này ĐÚNG, vì chưng độ tuổi cận bên trên là 16 tuổi.Ít duy nhất 75% học viên từ 10 tuổi trở lên. Tự 7 mang đến 10 tuổi được gọi là Q1, chỉ chiếm 25% số lượng mẫu, cần độ tuổi tự 10 trở lên sẽ chiếm 75% nên xác minh này ĐÚNG.Đúng một phần hai số học sinh từ 13 tuổi trở lên. Độ tuổi 13 nằm ở điểm trung vị, nhưng không đủ để xác định đúng một phần số học sinh từ 13 tuổi trở lên bởi số lượng học viên 13 tuổi hoàn toàn có thể nhiều rộng 1 người. Nên khẳng định này chưa chắc chắn đúng sai, xác định đúng là: Ít độc nhất một nửa số học viên từ 13 tuổi trở lên.Có 1 học sinh lớn tuổi độc nhất vô nhị là 16 tuổi. Boxplot cần thiết hiện số lượng mẫu có giá trị lớn nhất và nhỏ dại nhất. Bởi vì đó khẳng định này chưa thể xác minh đúng sai.4. Vẽ Boxplot vào Python

Qua các phần trên, chúng ta đã nuốm được cách vẽ và trình diễn dữ liệu cùng với Boxplot. Thực tế đa số các vẻ ngoài khi làm thống kê và khoa học dữ liệu đều đã cung ứng vẽ Boxplot một giải pháp tự động.

Bên dưới là 1 trong những ví dụ về Boxplot được vẽ bởi thư viện Seaborn với ngôn từ Python.

import matplotlib.pyplot as plt %matplotlib inline import seaborn as snstips = sns.load_dataset("tips")sns.boxplot(x="day", y="total_bill", hue="smoker", data=tips, palette="Set3")Kết quả:


*
lấy ví dụ như vẽ Boxplot với Seaborn
5. Kết luận

Bài viết đã reviews tổng quan liêu về Boxplot và bí quyết dùng nó để màn trình diễn dữ liệu. Hi vọng sẽ giúp đỡ ích cho chúng ta trong quy trình học tập, làm cho việc.