Khám phá các mô hình thu nhập bằng Python Pandas, Matplotlib và…

Phân tích dữ liệu thăm dò trên Bộ dữ liệu điều tra dân số Hoa Kỳ Bài viết "Khám phá các mô hình thu nhập bằng Python Pandas, Matplotlib và Seaborn" xuất hiện lần đầu trên Towards Data Science.

Khoa học dữ liệu Khám phá các mô hình thu nhập bằng Python Pandas, Matplotlib và Seaborn Phân tích dữ liệu thăm dò thân thiện với người mới bắt đầu trên tập dữ liệu điều tra dân số Hoa Kỳ Mahnoor Javed Ngày 2/6/2026 Đọc trong 13 phút Chia sẻ Ảnh của Engin Aykurt qua Unsplash Khi nói về thu nhập, chúng ta thường cho rằng thành công là nhờ sự chăm chỉ và thông minh. Đôi khi, chúng ta chỉ đơn giản cho rằng một số người gặp may mắn, và bất chấp trình độ học vấn thấp hoặc thiếu chuyên môn, họ vẫn có thể thành công trong nghề nghiệp và kiếm tiền thoải mái. Tuy nhiên, sự thật nằm ở giữa hai thái cực này. Đúng là một số người gặp may mắn và trở thành triệu phú khi còn trẻ, nhưng chúng ta cũng thấy những người làm việc chăm chỉ để thăng tiến trong sự nghiệp, nỗ lực hết mình để phát triển chuyên môn và từ đó tăng thu nhập. Trong bài viết này, chúng ta sẽ sử dụng Python để khám phá mối quan hệ giữa thu nhập với các yếu tố khác nhau, cụ thể là tuổi tác, giới tính, nghề nghiệp, trình độ học vấn, v.v. Mặc dù trong thời đại ngày nay, chúng ta có thể thực hiện phân tích bằng AI, vẽ biểu đồ và rút ra những hiểu biết sâu sắc, nhưng điều rất quan trọng là chúng ta phải biết cách trích xuất những hiểu biết sâu sắc từ dữ liệu thô bằng cách kết hợp phân tích của con người với sức mạnh tính toán. Đây là một hướng dẫn Python cấp độ người mới bắt đầu, yêu cầu một số kiến thức cơ bản về Python. Bằng cách sử dụng Python và các thư viện xử lý dữ liệu mạnh mẽ của nó, chúng ta sẽ xác định một số mô hình có thể dự đoán được, giúp chúng ta rút ra những hiểu biết sâu sắc về các yếu tố ảnh hưởng đến thu nhập nói chung, theo tập dữ liệu chúng ta sẽ sử dụng! Dự án Trong dự án này, chúng ta sẽ đi sâu vào một tập dữ liệu điều tra dân số với sự trợ giúp của Python, và sử dụng một số thư viện phân tích dữ liệu mạnh mẽ của nó như pandas, matplotlib và seaborn, để khám phá các mô hình thu nhập. Với sự trợ giúp của các công cụ làm sạch dữ liệu, trực quan hóa dữ liệu và phân tích thăm dò, chúng ta sẽ chuyển đổi dữ liệu thô này thành những hiểu biết sâu sắc có giá trị về các yếu tố ảnh hưởng đến thu nhập và mức độ ảnh hưởng. Đây là một dự án lập trình Python từ cấp độ người mới bắt đầu đến trung cấp, yêu cầu bạn phải có kiến thức về các nguyên tắc cơ bản của Python, đặc biệt là cách nhập và sử dụng các hàm từ các thư viện khác nhau để khám phá và phân tích dữ liệu. Tập dữ liệu Trong dự án này, chúng ta sẽ sử dụng Tập dữ liệu thu nhập điều tra dân số người lớn (Adult Census Income Dataset), đây là một tập dữ liệu thực tế được lấy từ dữ liệu điều tra dân số Hoa Kỳ. Mặc dù tập dữ liệu này có từ những năm 1990, chúng ta có thể sử dụng nó để rút ra các mô hình thu nhập với biên độ thay đổi trong 30 năm, đặc biệt là về khoảng cách giới tính trước đây rất rõ rệt. Tập dữ liệu này chứa thông tin nhân khẩu học và liên quan đến việc làm, bao gồm tuổi, nghề nghiệp, trình độ học vấn, tình trạng hôn nhân, giới tính, giờ làm việc, v.v., hầu hết đều có giá trị cho mục đích dự án của chúng ta. Tập dữ liệu này được công khai và thường được sử dụng cho các dự án giáo dục và nghiên cứu. Tập dữ liệu: Adult Census Income Dataset Nguồn: UCI Machine Learning Repository (CC BY 4.0) Dữ liệu gốc được lấy từ cơ sở dữ liệu của Cục Điều tra Dân số Hoa Kỳ. Bây giờ, chúng ta hãy bắt đầu! Khởi tạo môi trường mã hóa Trước khi bắt đầu, hãy đảm bảo rằng môi trường mã hóa của chúng ta đã được thiết lập đúng cách. Để làm được điều này, hãy đảm bảo rằng Python đã được cài đặt trong hệ thống của bạn và mở một IDE lập trình mà bạn chọn. Tôi sẽ sử dụng PyCharm vì tính thân thiện với người mới bắt đầu và khả năng truy cập gói của nó. Đầu tiên, chúng ta sẽ tạo một dự án mới có tên "Adults Income Pattern Analysis" và tạo một tệp Python main.py. Đây là nơi chúng ta sẽ thực hiện việc lập trình. Cài đặt và nhập các thư viện liên quan Tiếp theo, chúng ta sẽ cài đặt các thư viện/gói Python liên quan. Chúng ta sẽ sử dụng các thư viện sau để khám phá và phân tích dữ liệu: Pandas – đây là một trong những thư viện phổ biến nhất giúp làm việc với dữ liệu dạng bảng như tệp CSV. Matplotlib – thư viện Python này cho phép tạo biểu đồ, đồ thị và các hình ảnh trực quan dữ liệu khác. Seaborn – đây là một thư viện được xây dựng trên Matplotlib, mở rộng khả năng trực quan hóa dữ liệu ở mức độ lớn, giúp việc tạo biểu đồ và đồ thị dễ dàng hơn và đẹp mắt hơn. Chúng ta sẽ cài đặt các thư viện trên bằng cách sử dụng tùy chọn terminal trong PyCharm (tìm kiếm cách cài đặt cho IDE cụ thể của bạn). pip install pandas matplotlib seaborn Sau khi cài đặt hoàn tất, chúng ta sẽ tiến hành nhập các thư viện này vào tệp main.py của mình. import pandas as pd import matplotlib.pyplot as plt import seaborn as sns Tải tập dữ liệu và phân tích cơ bản Bây giờ, chúng ta sẽ tải tập dữ liệu dưới dạng DataFrame vào một biến có tên df. Đây là cách tiêu chuẩn của thư viện Pandas để tải tập dữ liệu vào DataFrame để sử dụng tiếp: df = pd.read_csv("https://huggingface.co/api/resolve-cache/datasets/scikit-learn/adult-census-income/fbeef6ec0e6fd88a5028b94683144000a6b380d5/adult.csv?%2Fdatasets%2Fscikit-learn%2Fadult-census-income%2Fresolve%2Fmain%2Fadult.csv=&etag=%225cf74ede1a6de37d85c96a61d30819a694dee749%22") print(df.head()) df.head() (Hình ảnh của Tác giả) Như có thể thấy, chúng ta đã tải tập dữ liệu từ URL đã chia sẻ trước đó, sau đó sử dụng hàm df.head() để in ra 5 hàng đầu tiên của tập dữ liệu nhằm có cái nhìn tổng quan về cấu trúc của nó. Chúng ta có thể thấy một số tên cột: age, workclass, fnlweight, hours.per.week, native.country và income. Ở đây, chúng ta thấy các dấu chấm giữa fnlweight và hours.per.week, cho thấy có các cột khác không thể hiển thị đầy đủ do không gian hạn chế trên màn hình đầu ra. Vấn đề này có thể được giải quyết bằng một số dòng mã (chúng ta sẽ xem xét điều này sau). Bây giờ, chúng ta hãy xem tập dữ liệu của chúng ta có bao nhiêu hàng và cột. Chúng ta sẽ thực hiện điều này bằng cách sử dụng lệnh df.shape, lệnh này sẽ xuất ra số lượng hàng và cột, giúp chúng ta có cái nhìn về quy mô của tập dữ liệu đang xử lý. print(df.shape) df.shape (Hình ảnh của Tác giả) Cuối cùng, chúng ta hãy xem phiên bản chi tiết của cột, bao gồm loại dữ liệu mà chúng đang lưu trữ: print(df.info()) df.info() (Hình ảnh của Tác giả) Như có thể thấy từ kết quả trên.