Dữ liệu phân loại là dữ liệu được phân loại thành các nhóm hoặc loại khác nhau. Ví dụ: giới tính, trình độ học vấn, nghề nghiệp, v.v. Dữ liệu phân loại có thể được phân thành hai loại chính:
- Thang đo danh nghĩa: Các giá trị trong thang đo danh nghĩa không có thứ tự hoặc khoảng cách. Ví dụ: giới tính, quốc tịch, v.v.
- Thang đo thứ tự: Các giá trị trong thang đo thứ tự có thứ tự nhưng không có khoảng cách. Ví dụ: xếp hạng học sinh, xếp hạng doanh nghiệp, v.v.
Thống kê cho dữ liệu phân loại được sử dụng để mô tả dữ liệu và xác định mối quan hệ giữa các biến phân loại. Các phép tính thống kê phổ biến cho dữ liệu phân loại bao gồm:
- Tần suất: Tần suất là số lần xuất hiện của một giá trị cụ thể trong dữ liệu.
- Tỷ lệ: Tỷ lệ là tần suất của một giá trị cụ thể chia cho tổng tần suất.
- Mode: Mode là giá trị có tần suất xuất hiện nhiều nhất trong dữ liệu.
- Median: Median là giá trị nằm ở giữa khi dữ liệu được sắp xếp theo thứ tự từ nhỏ đến lớn.
Tần suất và tỷ lệ
Tần suất và tỷ lệ là hai phép tính thống kê đơn giản nhưng hữu ích để mô tả dữ liệu phân loại. Tần suất cho biết một giá trị cụ thể xuất hiện bao nhiêu lần trong dữ liệu. Tỷ lệ là tần suất của một giá trị cụ thể chia cho tổng tần suất.
Ví dụ, giả sử chúng ta có dữ liệu về giới tính của 100 người như sau:
Giới tính | Tần suất |
---|---|
Nam | 55 |
Nữ | 45 |
Tần suất của nam giới là 55, tần suất của nữ giới là 45. Tỷ lệ của nam giới là 55/100 = 0,55, tỷ lệ của nữ giới là 45/100 = 0,45.
Mode
Mode là giá trị có tần suất xuất hiện nhiều nhất trong dữ liệu. Mode thường được sử dụng để mô tả dữ liệu phân loại danh nghĩa.
Trong ví dụ trên, mode là nam giới vì nam giới có tần suất xuất hiện nhiều nhất (55).
Median
Median là giá trị nằm ở giữa khi dữ liệu được sắp xếp theo thứ tự từ nhỏ đến lớn. Median thường được sử dụng để mô tả dữ liệu phân loại thứ tự.
Trong ví dụ trên, nếu chúng ta sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn, chúng ta sẽ có:

Median là nam giới vì đây là giá trị nằm ở giữa khi dữ liệu được sắp xếp theo thứ tự từ nhỏ đến lớn.
Các phép tính thống kê khác
Ngoài các phép tính thống kê đã được đề cập ở trên, còn có một số phép tính thống kê khác có thể được sử dụng cho dữ liệu phân loại. Các phép tính này bao gồm:
- Range: Range là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất trong dữ liệu.
- Interquartile range (IQR): IQR là khoảng cách giữa tứ phân vị thứ ba và tứ phân vị thứ nhất.
- Percentile: Percentile là giá trị nằm ở vị trí thứ p trong dữ liệu khi dữ liệu được sắp xếp theo thứ tự từ nhỏ đến lớn.
- Chi-square: Chi-square là một phép kiểm định thống kê được sử dụng để xác định mối quan hệ giữa hai biến phân loại.
Lựa chọn phép tính thống kê phù hợp phụ thuộc vào loại dữ liệu và mục đích phân tích của bạn.
Xem thêm
Phân tích dữ liệu thống kê bằng Excel