Trí tuệ nhân tạo (AI) có thể viết mã của bạn không?

Nghiên cứu gần đây về ChatGPT, Python, R và Stata cho thấy điều gì về lập trình hỗ trợ bởi AI trong suy luận nhân quả Bài viết "Liệu AI có thể viết mã cho bạn không?" xuất hiện lần đầu trên Towards Data Science.

Trí tuệ nhân tạo AI có thể viết mã (code) của bạn không? Một nghiên cứu gần đây về ChatGPT, Python, R và Stata cho chúng ta biết điều gì về việc hỗ trợ viết mã bằng AI để suy luận nhân quả. JUNIOR JUMBONG Ngày 25/5/2026 15 phút đọc Chia sẻ Hình ảnh được tạo bằng ChatGPT Điều gì sẽ xảy ra nếu câu hỏi thực sự không còn là liệu AI có thể viết mã hay không, mà là liệu chúng ta có thể tin tưởng vào mã mà nó viết hay không? Trong vài năm qua, ChatGPT và các mô hình ngôn ngữ lớn (LLM) khác đã trở nên ngày càng phổ biến trong quy trình làm việc hàng ngày của sinh viên, nhà phân tích, nhà nghiên cứu và nhà khoa học dữ liệu. Nhiều người trong chúng ta đã sử dụng các công cụ AI để tạo một hàm Python, gỡ lỗi một thông báo lỗi, tự động hóa một tác vụ lặp đi lặp lại hoặc nhanh chóng dịch mã từ ngôn ngữ này sang ngôn ngữ khác. Tuy nhiên, có một sự khác biệt lớn giữa việc yêu cầu ChatGPT viết một hàm hỗ trợ nhỏ và yêu cầu nó triển khai một phương pháp kinh tế lượng phức tạp. Liệu ChatGPT có thể viết mã chính xác cho mô hình Difference-in-Differences (Sai phân trong sai phân) không? Nó có thể triển khai Inverse Probability Treatment Weighting (Trọng số điều trị xác suất nghịch đảo) không? Nó có thể tái tạo phân tích Regression Discontinuity (Hồi quy gián đoạn) không? Nó có thể làm điều này không chỉ trong Python, mà còn trong R và Stata không? Đó là lý do tại sao bài báo “AI có thể viết mã của bạn không? Một nghiên cứu điển hình về khả năng viết mã thống kê của ChatGPT cho nghiên cứu định lượng” của Winberg và cộng sự ngay lập tức thu hút sự chú ý của tôi. Bài báo được xuất bản trực tuyến vào ngày 22/1/2026, trên tạp chí Health Economics Review. Các tác giả đánh giá khả năng của ChatGPT-4.0 Pro trong việc tạo mã cho các tác vụ suy luận nhân quả trong Python, R và Stata, sử dụng các giải pháp chuẩn từ Causal Inference: The Mixtape của Scott Cunningham. Hầu hết các bài báo tôi đã đọc trước đây về chủ đề này đều tập trung vào các tác vụ lập trình tương đối đơn giản: tự động hóa nhỏ, thống kê mô tả, làm sạch dữ liệu, phân tích dữ liệu cơ bản hoặc tạo mã trong các ngôn ngữ như Python, R và SAS. Nghiên cứu này đi xa hơn. Nó đặt câu hỏi liệu ChatGPT có thể hỗ trợ nghiên cứu định lượng trong các môi trường đòi hỏi cao hơn, nơi mã không chỉ mang tính kỹ thuật mà còn mang tính phương pháp luận. Các tác giả tập trung vào ba phương pháp suy luận nhân quả được sử dụng rộng rãi: Difference-in-Differences, còn gọi là Diff-in-Diff; Inverse Probability Treatment Weighting, hay IPTW; Regression Discontinuity, hay RD. Trong bài viết này, tôi sẽ trình bày nghiên cứu một cách có cấu trúc. Đầu tiên, chúng ta sẽ trình bày điều gì làm cho nghiên cứu này khác biệt đối với các nhà nghiên cứu định lượng. Thứ hai, chúng ta sẽ xem xét phương pháp luận được các tác giả sử dụng. Thứ ba, chúng ta sẽ xem xét cách hiệu suất của ChatGPT được đánh giá. Cuối cùng, chúng ta sẽ thảo luận về cách sự trỗi dậy của các LLM đã thay đổi cách làm việc của tôi. Điều gì làm cho nghiên cứu này khác biệt? Nhiều nghiên cứu trước đây đã đánh giá khả năng viết mã của ChatGPT bằng cách sử dụng đánh giá chủ quan. Nói cách khác, các nhà nghiên cứu đã xem xét mã được tạo ra và đánh giá xem nó có vẻ đúng hay không. Cách tiếp cận đó hữu ích, nhưng nó có một hạn chế: nó phụ thuộc rất nhiều vào phán đoán của người đánh giá. Winberg và cộng sự áp dụng một cách tiếp cận có cấu trúc hơn. Họ so sánh mã do ChatGPT tạo ra với mã tham chiếu tiêu chuẩn và các kết quả chuẩn từ Causal Inference: The Mixtape. Điều này cho phép họ đánh giá mã không chỉ dựa trên hình thức, mà còn dựa trên việc nó có tái tạo được các kết quả mong đợi hay không. Một đóng góp quan trọng khác là nghiên cứu này bao gồm Stata. Điều này quan trọng vì nhiều nhà nghiên cứu thực nghiệm, đặc biệt trong kinh tế học, chính sách công và kinh tế y tế, vẫn sử dụng Stata rộng rãi. Tuy nhiên, các cuộc thảo luận về trợ lý mã hóa AI thường chỉ tập trung vào Python và R. Bằng cách đưa Stata vào, các tác giả đánh giá ChatGPT bằng một ngôn ngữ rất phù hợp cho nghiên cứu kinh tế lượng ứng dụng nhưng ít được phân tích trong các nghiên cứu mã hóa AI. Phương pháp luận được sử dụng trong nghiên cứu Các tác giả đánh giá ChatGPT-4.0 Pro, phiên bản trả phí của ChatGPT có sẵn tại thời điểm nghiên cứu. Mục tiêu của họ là đo lường hiệu suất của nó khi được yêu cầu mã hóa các phân tích suy luận nhân quả trong Python, R và Stata. Họ sử dụng dữ liệu và bộ bài toán có sẵn công khai từ Causal Inference: The Mixtape. Cuốn sách giáo khoa này được biết đến rộng rãi trong kinh tế lượng ứng dụng và cung cấp các ví dụ với mã trong R, Stata và Python. Theo nghiên cứu, các môi trường tham chiếu là R 3.6.0, Stata 18 và Python 3.13. Các tác giả tập trung vào ba phương pháp suy luận nhân quả: Sai phân trong sai phân (Difference-in-Differences); Trọng số điều trị xác suất nghịch đảo (Inverse Probability Treatment Weighting); Gián đoạn hồi quy (Regression Discontinuity). Các phương pháp này được chọn vì chúng thường được sử dụng trong nghiên cứu thực nghiệm và đòi hỏi nhiều hơn là chỉ tạo cú pháp đơn giản. Chúng yêu cầu chuẩn bị dữ liệu phù hợp, đặc tả mô hình và giải thích kết quả đầu ra. Nghiên cứu tuân theo quy trình ba bước. Đưa các bộ bài toán kinh tế lượng cho ChatGPT Bước đầu tiên là đưa các bộ bài toán cho ChatGPT và yêu cầu nó tạo mã cho các phân tích kinh tế lượng liên quan. Ví dụ, một trong các bộ bài toán tập trung vào Sai phân trong sai phân. Bối cảnh là việc hợp pháp hóa phá thai ở năm tiểu bang của Hoa Kỳ trước khi hợp pháp hóa trên toàn quốc sau vụ Roe v. Wade vào năm 1973. Nhiệm vụ là ước tính liệu việc hợp pháp hóa phá thai sớm có ảnh hưởng đến tỷ lệ mắc bệnh lậu ở nữ thanh thiếu niên 15–19 tuổi hay không. Thay vì chỉ sử dụng một chỉ báo đơn giản sau điều trị, lời nhắc yêu cầu ChatGPT sử dụng tương tác năm theo điều trị để nắm bắt các hiệu ứng điều trị động theo thời gian. Loại lời nhắc này phức tạp hơn so với việc yêu cầu một hồi quy cơ bản. Nó đòi hỏi mô hình phải hiểu bối cảnh chính sách, xác định chỉ báo điều trị, cấu trúc các thuật ngữ tương tác và tạo mã phù hợp. Các tác giả định nghĩa các bộ bài toán tương tự cho IPTW và RD. Yêu cầu quy trình mã hóa hoàn chỉnh Trong bước thứ hai, các tác giả cung cấp các lời nhắc toàn diện hơn. Các lời nhắc này yêu cầu ChatGPT tái tạo các tác vụ mã hóa đầy đủ hơn từ The Mixtape, bao gồm quản lý dữ liệu, phân tích kinh tế lượng và tạo hình ảnh. Điều này quan trọng vì quy trình nghiên cứu thực tế hiếm khi chỉ giới hạn ở một lệnh mô hình. Một nhà nghiên cứu thường phải nhập dữ liệu, làm sạch biến, tạo chỉ báo, ước tính mô hình, tạo bảng, sản xuất