Chúng tôi đã xây dựng bản đồ POI tự hiệu chỉnh từ dữ liệu đầu vào của con người, các tác nhân dữ liệu và AI
URL bài viết: https://foursquare.com/resources/blog/products/how-we-built-a-self-calibrating-poi-map-from-human-input-data-agents-and-ai/ URL bình luận: https://news.ycombinator.com/item?id=48321149 Điểm: 1 Bình luận: 0
Tài nguyên / Blog / Sản phẩm
Cách chúng tôi xây dựng bản đồ POI tự hiệu chỉnh từ dữ liệu đầu vào của con người, tác nhân dữ liệu và AI
Bên trong FSQ Places Engine: Phần 1
Ngày 18/12/2025 bởi Foursquare
Một năm trước, chúng tôi đã giới thiệu Places Engine mới của Foursquare, một nền tảng huy động cộng đồng độc đáo, kết hợp con người và tác nhân để tạo ra một tập dữ liệu POI (điểm quan tâm) toàn diện. Chúng tôi đã xây dựng hệ thống này để tìm kiếm sự đồng thuận từ các đầu vào mâu thuẫn và neo nó bằng một nền tảng không gian vững chắc nhằm đảm bảo mọi bản ghi POI trong cơ sở dữ liệu của chúng tôi khớp với thực tế vật lý. Kết quả là một thứ khác biệt cơ bản so với hệ thống POI truyền thống: một biểu diễn POI tự hiệu chỉnh, sống động, liên tục suy luận về mọi đầu vào mà nó nhận được. Thay vì chỉ lưu trữ dữ liệu, công cụ này cân nhắc bằng chứng mới so với kiến thức hiện có, hiệu chỉnh độ tin cậy của mỗi người đóng góp dựa trên kết quả và tinh chỉnh động các bản ghi địa điểm, tất cả mà không cần can thiệp thủ công.
Trong bài đăng trên blog này, chúng tôi khám phá cách công cụ đồng thuận trung tâm của chúng tôi hoạt động như một chế độ nhân tài được thúc đẩy bởi các đầu vào từ ba loại người đóng góp khác nhau (Con người, Tác nhân dữ liệu và Tác nhân AI), và xem xét các quy trình làm việc cho phép hiệu chỉnh và phản hồi liên tục giữa chúng.
Ba loại người đóng góp và công cụ đồng thuận
Hệ thống của chúng tôi nhận được các đề xuất cho các địa điểm mới hoặc thay đổi đối với các địa điểm hiện có từ ba loại người đóng góp khác nhau: a) Con người sử dụng ứng dụng và công cụ Placemaker của chúng tôi để trực tiếp báo cáo các thay đổi đối với các địa điểm mà họ biết hoặc bỏ phiếu cho các chỉnh sửa do người dùng khác đề xuất, b) Tác nhân dữ liệu giám sát các nguồn kỹ thuật số như trang web, nguồn cấp dữ liệu và hệ thống đối tác, đối chiếu chúng với các địa điểm hiện có trong cơ sở dữ liệu của chúng tôi để hiểu sự khác biệt và đề xuất các địa điểm mới hoặc chỉnh sửa các địa điểm đã khớp hiện có và c) Tác nhân AI bao gồm các mô hình học máy và mô hình ngôn ngữ lớn khác nhau để chủ động báo cáo việc đóng cửa địa điểm hoặc bỏ phiếu cho các chỉnh sửa do những người đóng góp khác thực hiện.
Công cụ đồng thuận trung tâm đánh giá các đề xuất này (còn gọi là 'woes') và quyết định có chấp nhận chúng hay không dựa trên sự phù hợp giữa các người đóng góp khác nhau. Thay vì dựa vào đa số đơn giản, công cụ này, được xây dựng trên một phiên bản sửa đổi của thuật toán Dawid-Skene, hoạt động như một chế độ nhân tài: mỗi người đóng góp mang một điểm tin cậy được hiệu chỉnh ở cấp thuộc tính, ưu tiên những người có thành tích đáng tin cậy đã được chứng minh. Sau khi đưa ra quyết định, hệ thống sẽ hiệu chỉnh mọi người tham gia liên quan để tăng hoặc giảm điểm tin cậy liên quan đến người tham gia đó.
Giả sử, một nguồn cấp dữ liệu đối tác báo cáo rằng một phòng tập thể dục trong khu phố "Mở", nhưng một Placemaker lâu năm báo cáo nó "Đóng". Trong một hệ thống đa số đơn giản, đây có thể là một sự hòa, nhưng giải pháp là một vòng lặp xác minh và chấm điểm liên tục:
Đầu tiên, hệ thống hoạt động như một thẩm phán. Nó cân nhắc lời khai mâu thuẫn dựa trên lịch sử. Nó nhận ra rằng Placemaker là con người có tỷ lệ chính xác 99% đối với việc đóng cửa địa điểm, trong khi nguồn cấp dữ liệu tự động có lịch sử chậm trễ so với những thay đổi trong thế giới thực. Dựa trên bằng chứng có trọng số này, hệ thống xác định rằng phòng tập thể dục, rất có thể, đã đóng cửa.
Khi sự thật được xác lập, hệ thống sẽ đóng vai trò là một người hướng dẫn. Hệ thống sẽ "chấm điểm" những người đóng góp dựa trên phán quyết vừa đưa ra. Vì Superuser đứng về phía sự thật, lịch sử của họ được củng cố, làm tăng nhẹ ảnh hưởng của họ cho lần tiếp theo. Ngược lại, nguồn cấp dữ liệu tự động, do cung cấp thông tin không chính xác trái với sự đồng thuận, sẽ bị giảm điểm độ tin cậy. Điều này đảm bảo rằng nếu nguồn cấp dữ liệu cụ thể này tiếp tục sai về việc đóng cửa, tiếng nói của nó sẽ ngày càng ít quan trọng hơn trong các quyết định tương lai.
Vòng lặp "thẩm phán và hướng dẫn" này đóng vai trò là nền tảng của công cụ đồng thuận. Nó cũng bổ sung các kỹ thuật hiệu chỉnh để xử lý các tình huống phức tạp hơn được trình bày chi tiết dưới đây:
Độ tin cậy theo ngữ cảnh: Thứ nhất, hệ thống nhận ra rằng độ tin cậy mang tính ngữ cảnh chứ không phải nhị phân. Hãy xem xét một chủ doanh nghiệp. Họ là cơ quan có thẩm quyền cao nhất về Giờ mở cửa của chính họ, vì vậy hệ thống gán cho họ điểm tin cậy gần như hoàn hảo cho thuộc tính đó. Tuy nhiên, họ thường không đáng tin cậy khi nhập Tên địa điểm của họ, thường xuyên làm lộn xộn trường này với các khẩu hiệu tiếp thị như "Pizza ngon nhất ở NY" thay vì tên đăng ký chính thức. Mô hình này tính đến điều này bằng cách duy trì các điểm tin cậy riêng biệt cho mỗi người đóng góp theo loại thuộc tính, tin tưởng chủ sở hữu về hậu cần nhưng xác minh chuỗi của họ dựa trên các nguồn khác.
Khởi động lạnh cho các tác nhân dữ liệu: Thứ hai, hệ thống giải quyết vấn đề "khởi động lạnh" cho các tác nhân dữ liệu mới bằng cách sử dụng Bayesian Priors (tiên nghiệm Bayes). Khi một đối tác dữ liệu mới, chẳng hạn như một Nhà cung cấp danh sách mới, tham gia mạng lưới, chúng tôi không buộc họ phải bắt đầu với điểm số bằng không. Thay vào đó, chúng tôi gán cho họ một điểm độ tin cậy cơ bản (ví dụ: 60%) có được từ các tác nhân hiện có tương tự và điều chỉnh nó bằng cách xác thực dữ liệu dựa trên sự thật đã được xác minh. Điều này cho phép dữ liệu của họ được cân nhắc ngay lập tức, đồng thời ngăn họ phủ quyết các Placemaker (người tạo địa điểm) đã được thiết lập cho đến khi họ chứng minh được độ chính xác cụ thể của mình thông qua việc xác minh lặp lại.
Đầu vào thưa thớt: Cuối cùng, chúng tôi ngăn hệ thống trở nên quá tự tin trong môi trường dữ liệu thưa thớt. Trong một hệ thống ngây thơ, nếu chỉ có hai tác nhân bỏ phiếu về việc đóng cửa một địa điểm và cả hai đều nói "Có", hệ thống có thể tuyên bố chắc chắn 100%. Tuy nhiên, hệ thống của chúng tôi tự động xác định xem lượng bằng chứng đó có đủ để biện minh cho một kết luận dứt khoát như vậy hay không bằng cách so sánh nó với đường cơ sở toàn cầu cho các quyết định tương tự. Nếu dữ liệu thưa thớt, hệ thống sẽ neo xác suất vào mức trung bình toàn cầu, về cơ bản nói rằng, "Hầu hết các doanh nghiệp đều mở cửa, và hai phiếu bầu không đủ để chứng minh điều ngược lại" và điều chỉnh độ tin cậy xuống mức thận trọng hơn. Khi có thêm phiếu bầu tích lũy, bằng chứng trở nên đủ để vượt qua đường cơ sở này, cho phép mô hình đưa ra quyết định với độ tin cậy cao. Điều này đảm bảo tập dữ liệu của chúng tôi vẫn ổn định ngay cả khi




Nguồn tin: Hacker News AI — Tác giả: altilunium. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.