
Tại sao Trợ lý viết mã của tôi bắt đầu trả lời bằng tiếng Hàn khi tôi gõ tiếng Trung
Từ lời nhắc của người Trung Quốc đến câu trả lời của người Hàn Quốc: một cuộc điều tra không gian nhúng về cách từ vựng mã định hình lại ngôn ngữ Bài đăng Tại sao trợ lý mã hóa của tôi bắt đầu trả lời bằng tiếng Hàn khi tôi gõ tiếng Trung xuất hiện đầu tiên trên Hướng tới khoa học dữ liệu.
Mô hình ngôn ngữ lớn
Tại sao Trợ lý viết mã của tôi bắt đầu trả lời bằng tiếng Hàn khi tôi gõ tiếng Trung
Từ lời nhắc của người Trung Quốc đến câu trả lời của người Hàn Quốc: một cuộc điều tra không gian nhúng về cách từ vựng mã định hình lại ngôn ngữ
Thư Dương
Ngày 15 tháng 5 năm 2026
đọc 4 phút
Chia sẻ
Hình ảnh của Valey Rabchenyuk qua Bapt
Tôi là người Trung Quốc. Chủ yếu, tôi làm việc với trợ lý viết mã của mình bằng tiếng Trung. Tuy nhiên, bài viết của tôi thường bị lẫn lộn: nhiều thuật ngữ kỹ thuật quen thuộc hơn với tôi trong tiếng Anh (đặc biệt là các thuật ngữ chúng tôi sử dụng trong python, git, v.v.) và một số thuật ngữ thậm chí còn khó dịch sang tiếng Trung một cách tự nhiên.
Hôm qua, tôi đã hỏi trợ lý mã hóa của mình bằng tiếng Trung: "run.py有早停吗?我在恒源云上跑,发现没有触发", nghĩa là "run.py có thực hiện dừng sớm không? Tôi đang chạy dự án trên dịch vụ GPU dùng chung và tôi không thấy việc dừng sớm được kích hoạt." Như thường lệ, tôi gõ mã thông báo kỹ thuật run.py ở dạng tiếng Anh nguyên bản một cách tự nhiên. Mô hình đã kiểm tra mã và trả lời như sau:
Hình ảnh của tác giả: Ảnh chụp màn hình trợ lý mã hóa trả lời bằng tiếng Hàn
Tất cả các mã thông báo kỹ thuật vẫn bằng tiếng Anh (run.py, config.py, train_unified), trong khi cấu trúc giải thích chuyển sang tiếng Hàn. Đây không phải là trường hợp cá biệt. Điều này thỉnh thoảng vẫn xảy ra: chỉ cần tôi kết hợp các thuật ngữ kỹ thuật tiếng Trung và tiếng Anh thì tiếng Hàn luôn xuất hiện.
Hình ảnh của tác giả: Một ảnh chụp màn hình khác về trợ lý mã hóa trả lời bằng tiếng Hàn
Điều này khiến tôi đặt câu hỏi: Đây có phải là vấn đề về ngôn ngữ hay điều gì đó sâu xa hơn trong không gian nhúng?
giả thuyết
Không gian nhúng không được cấu trúc chủ yếu theo bản chất của ngôn ngữ. Đã được đào tạo cùng với các mô hình ngôn ngữ, chúng có xu hướng được tổ chức theo các sổ đăng ký nhiệm vụ như viết học thuật, văn bản đàm thoại và trong trường hợp trợ lý mã hóa là kỹ thuật/mã. Tiếng Trung, mặc dù được sử dụng bởi dân số đông nhất thế giới, nhưng không phải là phương tiện tự nhiên để đăng ký kỹ thuật và có sự đại diện hạn chế trong tài liệu kỹ thuật.
Trong bối cảnh như vậy, văn bản có thể ngừng hoạt động giống như “tiếng Trung” trong không gian nhúng ngay khi các mã thông báo kỹ thuật như đánh giá/nhánh/cam kết/PR/khác xuất hiện. Thay vào đó, nó có thể trôi dạt vào lĩnh vực thu hút kỹ thuật.
Chúng tôi sẽ tiến hành một số thí nghiệm để cung cấp bằng chứng thực nghiệm cho giả thuyết này.
Sự trôi dạt ngôn ngữ được kiểm soát
Chúng tôi xây dựng chuỗi câu được kiểm soát sau đây trong đó các từ tiếng Anh dần dần thay thế các từ tiếng Trung:
Giai đoạn 0: 请帮我检查这个分支
Giai đoạn 1: Đánh giá ý tưởng
Giai đoạn 2: 请帮我 xem xét chi nhánh 这个
Giai đoạn 3: Vui lòng xem lại cam kết yêu cầu kéo nhánh này
Giai đoạn 4: Vui lòng xem lại yêu cầu kéo nhánh này.
Bây giờ chúng tôi tính toán độ tương tự bằng cách sử dụng độ tương tự cosine giữa các phần nhúng câu. Chúng tôi định nghĩa “cụm” tiếng Hàn và tiếng Anh là cách nhúng trung bình của một tập hợp nhỏ các câu đại diện liên quan đến kỹ thuật trong mỗi ngôn ngữ. Chúng tôi sử dụng Δ (EN − KO) để biểu thị sự khác biệt giữa điểm tương đồng giữa tiếng Anh và tiếng Hàn, tức là Δ = độ tương tự (tiếng Anh) − độ tương tự (tiếng Hàn).
Giai đoạnTương tự tiếng HànTương tự tiếng AnhΔ (EN − KO)00.47830.51410.035810.52350.57280.049220.54740.61400.066530.56160.73140.169840.54270.73980.1972
Chúng tôi quan sát thấy một hiện tượng thú vị: độ tương tự của tiếng Hàn tăng lên đầu tiên và sau đó là độ tương tự của tiếng Anh. Hơn nữa, sự tăng trưởng về độ tương đồng trong tiếng Anh là phi tuyến tính, cho thấy hành vi giống như chuyển pha hơn là trôi dần.
Khi chiếu các phần nhúng vào hai chiều bằng PCA, chúng tôi quan sát thấy một quỹ đạo trơn tru ở giai đoạn đầu, sau đó là bước nhảy định hướng rõ ràng giữa Giai đoạn 2 và Giai đoạn 3, và quá trình ổn định tiếp theo. Mẫu này chỉ ra rằng các phần nhúng không di chuyển tuyến tính trong không gian; thay vào đó, chúng dường như chuyển đổi giữa các lưu vực thu hút.
Ảnh của tác giả: Quỹ đạo trôi dạt có kiểm soát trong không gian PAC
Hành vi mẫu trong thế giới thực
Hãy xem xét lại câu chúng tôi đã đề cập ở phần đầu. Tôi hỏi:
A. "run.py有早停吗?我在恒源云上跑,发现没有触发", nghĩa là "run.py có thực hiện dừng sớm không? Tôi đang chạy dự án trên dịch vụ GPU dùng chung và tôi không thấy việc dừng sớm được kích hoạt."
B. “원인을 찾았습니다. 결론: run.py에는 실제로 조기 종료가 없습니다. config.py에 USE_EARLY_STOPPING = True” (bằng tiếng Hàn).
Dịch ngược lại sang tiếng Trung, chúng ta có:
C. “我找到了原因。结论:run.py实际上没有早停。config.py里有 USE_EARLY_STOPPING = True。”
Chúng tôi tính toán độ tương tự của A, B và C bằng cách sử dụng độ tương tự cosin giữa các phần nhúng câu. Để so sánh, chúng tôi xác định ba cụm tham chiếu: cụm tiếng Trung là cách nhúng trung bình của các câu ngôn ngữ tự nhiên nói chung của tiếng Trung và các cụm tiếng Anh và tiếng Hàn tương ứng.
Văn bảnSim Hàn QuốcSim tiếng AnhSim Trung QuốcA. (Dấu nhắc tiếng Trung)0.20030.26880.3134B. (Phản hồi của Hàn Quốc)0.27450.29830.1641C. (Dịch tiếng Trung)0.16340.31060.2798
Như bạn có thể thấy, việc dịch phản hồi từ tiếng Hàn sang tiếng Trung Quốc không đưa nội dung nhúng trở lại khu vực Trung Quốc. Thay vào đó, nó thậm chí còn tiến gần hơn đến các cụm tiếng Anh.
Điều này gợi ý: Bản dịch có thể khôi phục dạng ngôn ngữ nhưng có thể không nhúng vị trí.
Kết luận
Cả hai thử nghiệm đều đưa ra cùng một kết luận: không gian nhúng không được tổ chức theo ranh giới ngôn ngữ. Thay vào đó, nó có nhiều khả năng được cấu trúc theo tính chất nhiệm vụ, trong đó tiếng Anh kỹ thuật chiếm ưu thế.
Khi một câu đi vào khu vực này, dạng ngôn ngữ có thể thay đổi nhưng cấu trúc nhúng vẫn nằm trong lưu vực kỹ thuật, dẫn đến những hành vi kỳ lạ như trả lời bằng tiếng Hàn ngay cả khi bạn hoàn toàn không phải là người nói tiếng Hàn.
Viết bởi
Thư Dương
Xem tất cả từ Shuyang
Trợ lý mã hóa AI, Trí tuệ nhân tạo, Không gian nhúng, Llm, Dịch máy
Chia sẻ bài viết này
Chia sẻ trên Facebook
Chia sẻ trên LinkedIn
Chia sẻ trên X
Hướng tới Khoa học Dữ liệu là một ấn phẩm cộng đồng. Gửi thông tin chi tiết của bạn để tiếp cận khán giả toàn cầu của chúng tôi và kiếm tiền thông qua Chương trình thanh toán cho tác giả TDS.
Viết cho TDS



Nguồn tin: Towards Data Science — Tác giả: Shuyang. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.