
Vượt ra ngoài những cuộn trang: Các thuật toán mạng xã hội định hình thực tế của bạn như thế nào
Giới thiệu về các hệ thống đề xuất Bài viết Beyond the Scroll: How Social Media Algorithms Shape Your Reality xuất hiện lần đầu trên Towards Data Science.
Mạng xã hội
Vượt ra ngoài thao tác cuộn: Các thuật toán mạng xã hội định hình thực tế của bạn như thế nào
Giới thiệu về các hệ thống đề xuất
Ivo Bernardo
Ngày 23/5/2026
13 phút đọc
Chia sẻ
Đề xuất từ một mô hình AI – Hình ảnh của Tác giả
Bạn có thể đã cảm thấy rằng nguồn cấp dữ liệu mạng xã hội của mình hiểu bạn quá rõ.
Khi bạn duyệt mạng xã hội, bạn nhận thấy một hành vi rất điển hình: bạn xem một video, và đột nhiên dòng thời gian của bạn tràn ngập những nội dung tương tự. 5 năm trước, điều này có vẻ hơi giống phép thuật. Nhưng ngày nay, chúng ta nói về “thuật toán” như thể đó là một thực thể bí ẩn đang giật dây trong một tầng hầm nào đó ở Thung lũng Silicon. Sự thật ít kịch tính hơn nhiều, và thú vị hơn nhiều.
Thuật toán không vốn dĩ xấu xa, nó không ngồi đó âm mưu cực đoan hóa bạn. Nó chỉ là một đoạn mã chạy các phép so sánh cosin và trung bình có trọng số, cố gắng dự đoán bạn sẽ nhấp vào cái gì tiếp theo. Vấn đề là những gì chúng ta tương tác sẽ tạo ra sự tương tác. Và cách chắc chắn nhất để giữ chân con người tương tác hóa ra lại là cách tồi tệ nhất để giữ cho họ được thông tin (những nội dung gây phẫn nộ, tin giả, hoặc tệ hơn).
Bài đăng này nói về cách các công cụ đề xuất hoạt động, tại sao chúng đẩy chúng ta vào các buồng vang, và, bởi vì đọc về một điều không bao giờ giống như nhìn thấy nó, chúng ta sẽ xây dựng một công cụ từ đầu, hướng nó vào dữ liệu tin tức thực tế và xem bong bóng hình thành.
Công cụ tương tác: Cách các hệ thống đề xuất hoạt động
Một thuật toán mạng xã hội, về bản chất, là một người quản lý. Nhiệm vụ của nó là sàng lọc hàng triệu bài đăng và phục vụ bạn những bài mà bạn có nhiều khả năng tương tác nhất: nhấp, xem, thích, chia sẻ, bình luận phẫn nộ. Nó thực hiện điều này dựa trên một từ: dữ liệu.
Mọi hành động bạn thực hiện đều là một manh mối:
Bạn dừng lại ở bài đăng nào (ngay cả khi không nhấp)
Bạn xem video nào và trong bao lâu
Bạn theo dõi, tắt tiếng hoặc chặn tài khoản nào
Bạn tìm kiếm chủ đề nào lúc 1 giờ sáng
Sử dụng học máy (machine learning), thuật toán phát hiện các mẫu trong dòng hành vi này. Nó liên tục đặt cùng một câu hỏi: điều gì giữ người này trên nền tảng lâu hơn? Hãy nhớ rằng đây là mục tiêu lớn nhất của bất kỳ công ty mạng xã hội nào: giữ bạn trên nền tảng lâu hơn.
Hai kỹ thuật cổ điển nằm bên dưới hầu hết các hệ thống đề xuất:
Lọc cộng tác (Collaborative filtering) tìm những người dùng có hành vi giống bạn và đề xuất những gì họ thích. Nếu Alice và Bob đều yêu thích The Matrix và Inception, và Alice cũng yêu thích Interstellar, hệ thống sẽ gợi ý Interstellar cho Bob. Khá dễ hiểu.
Lọc dựa trên nội dung (Content-based filtering) xem xét các đặc điểm của những gì bạn đã thích và tìm những thứ tương tự. Nếu bạn xem nhiều video nấu ăn, nó sẽ hiển thị nhiều video được gắn thẻ “nấu ăn”, “công thức” hoặc “kỹ năng dùng dao”, chúng giống với những gì bạn đã thích.
Các nền tảng thực tế kết hợp các phương pháp này với hàng trăm tín hiệu khác. Nhưng ý tưởng cốt lõi là như nhau: học hỏi từ hành vi của bạn, dự đoán những gì khác có thể thu hút bạn.
Thuật toán không có ý định hiển thị cho bạn nội dung xấu hoặc sai. Nó tối ưu hóa cho sự tương tác. Và một trong những cách chắc chắn nhất để giữ chân con người tương tác là khai thác cảm xúc của chúng ta, đặc biệt là những cảm xúc mạnh mẽ, tiêu cực. Hoặc các video về mèo.
Xây dựng một hệ thống đề xuất tin tức trên dữ liệu thực
Hãy ngừng nói chuyện trừu tượng và bắt tay vào xây dựng một hệ thống. Chúng ta sẽ sử dụng nhật ký nhấp chuột thực tế đã được ẩn danh từ Microsoft News. Bộ dữ liệu này có tên là MIND (Microsoft News Dataset), được Microsoft Research công bố cho mục đích nghiên cứu học thuật. Mẫu này chứa 50.000 người dùng, hơn 51.000 bài báo tiếng Anh thuộc 17 danh mục (tin tức, thể thao, tài chính, lối sống, sức khỏe, du lịch, v.v.) và hơn 156.000 phiên hiển thị thực tế, mỗi phiên ghi lại những gì người dùng đã được hiển thị và những gì họ đã nhấp vào. Toàn bộ hệ thống này có thể được viết trong khoảng 30 dòng mã Python, mặc dù bạn không thực sự cần biết chi tiết này:
```python
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix
from sklearn.metrics.pairwise import cosine_similarity
# Build a sparse user × article matrix (1 = clicked, 0 = didn't)
matrix = csr_matrix((np.ones(len(clicks)), (user_rows, article_cols)),
shape=(n_users, n_articles))
def recommend(user_id, matrix, top_n=15, n_neighbors=50):
"""Find 50 most similar users and rank the articles
they clicked that our user hasn't seen yet."""
u = user_idx[user_id]
# Cosine similarity between this user and everyone else
sims = cosine_similarity(matrix[u], matrix).flatten()
sims[u] = 0 # don't recommend to yourself
# Take the top 50 most similar users
top_neighbors = np.argsort(sims)[-n_neighbors:][::-1]
weights = sims[top_neighbors]
# Score articles by weighted sum of neighbour clicks
scores = np.asarray(matrix[top_neighbors].T.dot(weights)).flatten()
# Zero out articles the user already clicked
scores[matrix[u].toarray().flatten() > 0] = 0
# Return the top-scoring articles
top_articles = np.argsort(scores)[-top_n:][::-1]
return top_articles
```
Độ tương đồng cosine (Cosine similarity) tìm ra 50 người dùng gần gũi nhất với bạn, những người nhấp vào cùng loại bài viết mà bạn quan tâm. Chúng ta lấy các bài viết mà họ đã nhấp, trọng số hóa chúng theo mức độ tương đồng của từng người dùng lân cận với bạn, và đề xuất 15 bài viết hàng đầu. Đây là nền tảng của một ngành công nghiệp trị giá hàng tỷ đô la.
Độ tương đồng cosine là gì?
Độ tương đồng cosine nghe có vẻ như một khái niệm trong sách giáo trình toán học, nhưng hãy kiên nhẫn, nó dễ hiểu hơn bạn nghĩ. Để minh họa cách hoạt động của nó, chúng ta hãy đi một đường vòng ngắn.
Hãy hình dung các điểm dữ liệu sau được phân tán trên hai trục: cơ khí so với sinh học, và độ dễ thương:
Emoji Similarity Mapper — Cat and Dog – Hình ảnh của Tác giả
Độ tương đồng cosine đo góc giữa hai mũi tên, mỗi mũi tên bắt đầu từ gốc tọa độ (0,0) và chỉ về một trong các điểm dữ liệu của chúng ta. Góc giữa chúng càng nhỏ, hai mục càng tương đồng.
Hãy nghĩ theo cách này: nếu hai mũi tên gần như chỉ cùng một hướng, các mục mà chúng đại diện có chung các đặc điểm tương tự. Lấy ví dụ về mèo và chó. Cả hai đều có điểm cao về 'sinh học' và 'dễ thương', vì vậy các mũi tên của chúng chỉ gần như cùng một hướng và độ tương đồng cosine trả về giá trị gần 1 (giá trị tối đa của nó).
Nhưng nếu chúng ta so sánh mèo với




Nguồn tin: Towards Data Science — Tác giả: Ivo Bernardo. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.