Phần cứng tạo nên AI

CPU, GPU, TPU và NPU Bài viết The Hardware That Makes AI Possible (Phần cứng tạo nên AI) xuất hiện lần đầu trên Towards Data Science.

Trí tuệ nhân tạo Phần cứng giúp AI khả thi CPU, GPU, TPU và NPU Sara A. Metwalli Ngày 9/6/2026 6 phút đọc Chia sẻ Ảnh của Nicolas Foster từ Pexels Khi nói về AI, chúng ta thường mô tả nó như một cuộc cách mạng phần mềm, và đúng là như vậy! Từ những đột phá trong mạng nơ-ron và mô hình transformer đến các mô hình ngôn ngữ lớn, thật dễ dàng để cho rằng những thuật toán thông minh này chịu trách nhiệm cho những tiến bộ mà chúng ta đã thấy trong những năm gần đây. Nhưng hôm nay, tôi muốn làm rõ cách AI hiện đại chỉ có thể thực hiện được nhờ những tiến bộ trong phần cứng. Huấn luyện một mô hình ngôn ngữ lớn liên quan đến việc thực hiện hàng nghìn tỷ phép toán trên các tập dữ liệu lớn. Tạo một hình ảnh từ một lời nhắc văn bản đòi hỏi hàng tỷ phép tính chỉ trong vài giây. Chạy AI trên điện thoại thông minh đòi hỏi các phép tính phải được hoàn thành nhanh chóng và với mức tiêu thụ điện năng tối thiểu. Phần cứng máy tính truyền thống không được thiết kế cho điều đó. Nhưng khi các mô hình AI ngày càng lớn hơn và đòi hỏi nhiều tính toán hơn, các kiến trúc phần cứng mới đã được cần thiết để chạy các mô hình này. Ngày nay, CPU, GPU, TPU và NPU đều đóng vai trò quan trọng trong thế giới AI. Trong bài viết này, chúng ta sẽ khám phá phần cứng cung cấp năng lượng cho AI hiện đại và giải thích tại sao cần các bộ xử lý khác nhau cho các tác vụ khác nhau. Tại sao AI cần phần cứng chuyên dụng Để hiểu tại sao AI cần phần cứng đặc biệt, hãy quay lại và suy nghĩ về những gì xảy ra trong quá trình học máy. Về cốt lõi, việc huấn luyện một mạng nơ-ron liên quan đến việc lặp đi lặp lại các phép toán trên một tập hợp các số. Hầu hết các phép toán này liên quan đến phép nhân ma trận và tích tensor phải được thực hiện hàng triệu hoặc hàng tỷ lần. Điều này khác biệt đáng kể so với các ứng dụng phần mềm khác. Ví dụ, một trình duyệt web dành phần lớn thời gian để phản hồi các đầu vào của người dùng và tải tài nguyên. Các ứng dụng AI, mặt khác, thường liên quan đến việc áp dụng cùng một phép toán cho một lượng lớn dữ liệu. Vì vậy, để AI hoạt động tốt, nó cần thực hiện nhiều phép tính cùng một lúc. Nhu cầu tính toán song song này đã dẫn đến sự phát triển của phần cứng chuyên dụng được tối ưu hóa cho AI. Vậy, hãy nói về phần cứng! CPU: Bộ xử lý đa năng OG! Nếu chúng ta nói về phần cứng, chúng ta cần bắt đầu với OG (Original Gangster): Bộ xử lý trung tâm (CPU). CPU là nền tảng của điện toán hiện đại. Mọi máy tính xách tay, điện thoại thông minh, máy trạm và máy chủ đều dựa vào CPU để chạy các hoạt động hệ thống của nó. Vì CPU là đa năng, chúng được thiết kế để linh hoạt. Chúng có thể thực hiện hiệu quả nhiều loại lệnh và nhanh chóng chuyển đổi giữa các tác vụ. Một cách để nghĩ về CPU là một chuyên gia có kỹ năng cao. Nó có thể thực hiện nhiều công việc khác nhau và thích ứng với các yêu cầu thay đổi. Để hỗ trợ điều này, CPU thường chứa một số lượng nhỏ các lõi mạnh mẽ. Điều này khiến chúng trở thành lựa chọn để chạy hệ điều hành, quản lý bộ nhớ, xử lý tương tác người dùng, điều phối các ứng dụng phần mềm và thực hiện các quy trình ra quyết định. Mặc dù CPU khá mạnh mẽ, nhưng chúng không được tối ưu hóa để thực hiện cùng một phép toán trên hàng nghìn hoặc hàng triệu điểm dữ liệu cùng một lúc. Điều này có nghĩa là, đối với khối lượng công việc AI, đây trở thành một hạn chế. Mặc dù CPU vẫn là thành phần thiết yếu của hệ thống AI, nhưng chúng thường điều phối và hỗ trợ các phép tính AI hơn là thực hiện phần lớn công việc toán học nặng nhọc. Trong các quy trình AI hiện đại, CPU được sử dụng để tải và tiền xử lý dữ liệu, điều phối giao tiếp giữa các thiết bị phần cứng, quản lý quy trình công việc đào tạo và lập lịch các tác vụ tính toán. Ảnh: Tác giả GPU: Động lực thúc đẩy cuộc cách mạng học sâu Nếu có một phần cứng gắn liền mật thiết nhất với AI hiện đại, đó chính là Bộ xử lý đồ họa (GPU). GPU ban đầu được phát triển để kết xuất đồ họa trong các trò chơi điện tử và ứng dụng trực quan hóa. Việc kết xuất một hình ảnh liên quan đến việc thực hiện các phép tính tương tự trên hàng triệu điểm ảnh, khiến nó vốn dĩ là một quá trình song song. Để làm được điều đó, GPU được thiết kế với hàng nghìn lõi xử lý nhỏ hơn có thể thực hiện nhiều phép toán đồng thời. Các nhà nghiên cứu nhanh chóng nhận ra rằng mạng nơ-ron sử dụng các mẫu tính toán tương tự. Đào tạo mạng nơ-ron liên quan đến việc thực hiện lặp đi lặp lại các phép nhân ma trận trên các tập dữ liệu lớn. Vì các phép toán này có thể được phân phối trên nhiều lõi, GPU rất phù hợp cho học sâu. Do đó, CPU ưu tiên tính linh hoạt trong khi GPU ưu tiên thông lượng. Sự khác biệt này đã thay đổi cách chúng ta từng nghĩ về nghiên cứu AI. Các tác vụ từng mất hàng tuần hoặc hàng tháng để hoàn thành giờ đây được hoàn thành trong vài ngày hoặc vài giờ. Nhiều mô hình AI tiên tiến nhất hiện nay được đào tạo bằng cách sử dụng các cụm chứa hàng trăm hoặc hàng nghìn GPU hoạt động cùng nhau. Cuộc cách mạng học sâu không chỉ được thúc đẩy bởi các thuật toán tốt hơn. Nó được kích hoạt bởi phần cứng có khả năng thực hiện hiệu quả các thuật toán đó ở quy mô lớn. Ảnh: Tác giả TPU: Phần cứng được thiết kế đặc biệt cho AI Vì vậy, GPU đã được điều chỉnh cho AI, và một nhân tố mới đã xuất hiện! Bộ xử lý Tensor (TPU). TPU được Google phát triển để tăng tốc các phép toán tensor phổ biến trong mạng nơ-ron. Thay vì hỗ trợ một loạt các tác vụ tính toán rộng lớn, TPU chuyên về một tập hợp nhỏ hơn các phép toán thường được sử dụng trong quá trình đào tạo máy học. Nhờ chuyên môn hóa này, TPU mang lại nhiều lợi thế, như thông lượng cao, hiệu quả năng lượng được cải thiện, giảm chi phí và tối ưu hóa cho các ứng dụng máy học. Khi khối lượng công việc AI trở nên quan trọng hơn, các nhà thiết kế phần cứng đang chuyển từ kiến trúc hoàn toàn đa năng sang các bộ xử lý được tối ưu hóa cho các ứng dụng cụ thể. Ngày nay, TPU được sử dụng rộng rãi trong hệ sinh thái đám mây của Google và đã đóng góp vào việc đào tạo một số mô hình AI lớn nhất thế giới. Ảnh: Tác giả NPU: Đưa AI vào thực tế Không phải tất cả các khối lượng công việc AI đều diễn ra bên trong các trung tâm dữ liệu. Trên thực tế, nhiều ứng dụng AI hiện nay chạy trực tiếp trên các thiết bị cá nhân. Chạy AI cục bộ có lợi vì nó