A Box Plot là dạng biểu đồ được sử dụng khá phổ biến trong phân tích dữ liệu và thống kê. Nó thể hiện sự phân bố các giá trị định lượng của tập dữ liệu định dạng. Tham khảo bài viết dưới đây của Top20Review để biết rõ hơn về biểu đồ Box Plot, cũng như cách đọc hiểu biểu đồ này đúng nhất.
Biểu đồ Box Plot mang lại rất nhiều lợi ích trong việc trình bày trực quan dữ liệu. Nếu bạn muốn tìm hiểu sâu hơn về loại biểu đồ này từ khái niệm, thành phần cho đến cách vẽ và cách đọc hiểu, hãy trực tiếp liên hệ với các chuyên gia Data Analyst của Askany để được cung cấp các thông tin liên quan một cách đầy đủ và chi tiết nhất.
Mục lục
A Box Plot là gì?
Box Plot hay còn được gọi là Box and Whisker plot, là dạng biểu đồ biểu thị sự phân phối giá trị định lượng của một hoặc nhiều nhóm dữ liệu định dạng (category data). Có 5 thông số chính được biểu đồ Box Plot thể hiện là:
- Median: Trung vị của tập dữ liệu, còn được biết là giá trị ở phần tử giữa.
- First quartile (Q1): Trung vị giữa Media và phần tử nhỏ nhất trong tập dữ liệu.
- Third quartile (Q3): Trung vị giữa Median và phần tử lớn nhất của tập dữ liệu.
- Minimum: Phần tử nhỏ nhất mà không phải là ngoại lệ.
- Maximum: Phần tử lớn nhất nhưng không phải ngoại lệ.
Box Plot được sử dụng để giúp các nhà phân tích xác định được mức độ phân phối, tính đối xứng, độ lệch, phương sai, giá trị trung vị và phân vị, cũng như các giá trị ngoại lai của tập dữ liệu. Nhờ đó, người xem biểu đồ cũng dễ dàng biết được phần lớn dữ liệu chính ở đâu và so sánh phạm vi giữa các nhóm giá trị phân loại khác nhau.
>> Xem thêm: Data Engineer là gì? Lộ trình trở thành Data Engineer giỏi.
Ứng dụng của biểu đồ Box Plot
So sánh các nhóm dữ liệu
Về cơ bản, Box Plot được sử dụng với mục đích chính alf so sánh sự phân phối giữa các nhóm dữ liệu khác nhau. Biểu đồ này được đánh giá có khả năng bao quát các chỉ số thống kê mô tả tập dữ liệu, giúp người đọc báo cáo so sánh các nhóm dữ liệu thông qua phạm vi hộp và râu của biểu đồ một các dễ dàng.
Xem thêm các bài viết khác:
- Hướng dẫn cách chuyển mô hình ER sang mô hình quan hệ đúng nhất.
- Phân tích dữ liệu lớn là gì? Những lợi ích đặc biệt doanh nghiệp nên biết.
- Top 7 công cụ phân tích dữ liệu mạng xã hội hữu ích nhất hiện nay.
Đánh giá thứ tự các nhóm dữ liệu
Với biểu đồ Box Plot, bạn có thể đánh giá phạm vi giá trị của các dữ liệu định dạng. Thông thường, các hộp của biểu đồ sẽ được sắp xếp theo mức độ tăng dần của giá trị trung vị.
Các thành phần chính của biểu đồ Box Plot
Chiều của biểu đồ
Chiều của biểu đồ Box Plot có thể được điều chỉnh linh hoạt thành chiều dọc hoặc ngang nhằm mục đích trực quan hoá dữ liệu rõ ràng, dễ đọc. Nếu bạn có nhiều dữ liệu định dạng hoặc các giá trị có độ dài không thích hợp để biểu diễn theo chiều dọc thì hãy sử dụng chiều biểu đồ là ngang, điều này cũng hạn chế việc xoay biểu đồ để đọc được hoặc cắt bớt tên của các nhóm giá trị.
Chiều dài phạm vi hộp
Chiều dài phạm vi của hộp sẽ biểu diễn số điểm dữ liệu của mỗi nhóm, đồng thời chiều dài này thường được chia theo tỷ lệ căn bậc hai của số điểm dữ liệu, bởi căn bậc hai có tỷ lệ thuận với sai số chuẩn của các giá trị. Bên cạnh đó, bạn có thể bổ sung thêm chú thích về số lượng điểm dữ liệu của mỗi nhóm để người đọc báo cáo dễ dàng nắm rõ kích thước mẫu.
>> Xem thêm: Data Entry là gì? Cẩm nang công việc nhập liệu cho người mới.
Độ dài râu và các giá trị ngoại lai
Có rất nhiều cách để xác định độ dài râu của biểu đồ Box Plot và cách thông dụng nhất là lấy giá trị tương ứng 1,5 lần IQR của mỗi đầu hộp. Ngoài ra, bạn có thể tính độ dài râu bằng cách đánh dấu tại một giá trị phân vị khác tương tự giá trị Q1, Q2 và Q3.
Cách đọc hiểu biểu đồ Box Plot
Để hình dung rõ về cách đọc hiểu biểu đồ Box Plot, hãy tham khảo ví dụ sau đây:
Bước 1: Xác định các dữ kiện sau:
- Độ tuổi nhỏ nhất là 7 tuổi.
- Độ tuổi lớn nhất là 16 tuổi.
- Median (độ tuổi trung vị) là 13 tuổi.
Bước 2: Đưa ra các nhận định, cụ thể:
- Tất cả sinh viên đều nhỏ hơn 17 tuổi: Khẳng định này đúng, vì giới hạn độ tuổi cận trên là 16 tuổi.
- Ít nhất 75% học sinh từ 10 tuổi trở lên: Với khoảng từ 7 đến 10 tuổi được xem xét là Q1, chiếm 25% số lượng mẫu, nên độ tuổi từ 10 trở lên chiếm ít nhất 75%, điều này là đúng.
- Số học sinh từ 13 tuổi trở lên chiếm một nửa: Mặc dù độ tuổi 13 là điểm trung vị, nhưng chưa đủ để khẳng định đúng một nửa số học sinh từ 13 tuổi trở lên do có thể có nhiều hơn một học sinh ở độ tuổi này. Vì vậy, khẳng định chưa thể xác định là đúng hay sai, nhưng có thể nói ít nhất là một nửa số học sinh từ 13 tuổi trở lên.
- Có ít nhất 1 học sinh lớn tuổi nhất là 16 tuổi: Vì boxplot không hiển thị số lượng mẫu có giá trị lớn nhất và nhỏ nhất, khẳng định này không thể xác định đúng hay sai từ biểu đồ.
Có thể thấy rằng, A Box Plot là dạng biểu đồ có tính ứng dụng vô cùng cao trong ngành phân tích dữ liệu. Tuy nhiên, để sử dụng biểu đồ này đúng cách thật sự không đơn giản. Bạn phải hiểu rõ các thành phần phức tạp của biểu đồ để có thể vẽ và đọc hiểu chính xác. Giải pháp tốt nhất mà bạn có thể tham khảo là liên hệ ngay các chuyên gia DA có nhiều kinh nghiệm trên ứng dụng Askany hỗ trợ tư vấn và cung cấp các thông tin liên quan hữu ích.