Microsoft đã đào tạo các mô hình MAI của mình bằng dữ liệu web…

Microsoft quảng bá phương pháp đào tạo mô hình ngôn ngữ lớn (LLM) của mình khác biệt so với các công ty AI khác. Tuy nhiên, điều này không đúng. Công ty đã đào tạo các mô hình MAI mới của mình một phần dựa trên dữ liệu web không có giấy phép như Common Crawl, mặc dù tuyên bố chỉ sử dụng "dữ liệu sạch và được cấp phép thương mại". Giống như mọi phòng thí nghiệm AI khác, Microsoft dựa vào nguyên tắc sử dụng hợp lý (fair use) và đặt gánh nặng lên các chủ sở hữu trang web trong việc chặn trình thu thập dữ liệu của họ. Bài viết "Microsoft đào tạo các mô hình MAI của mình bằng dữ liệu web không có giấy phép mặc dù đã hứa hẹn 'dữ liệu cấp doanh nghiệp, sạch và được cấp phép thương mại'" lần đầu tiên xuất hiện trên The Decoder.

Microsoft đã huấn luyện các mô hình MAI của mình bằng dữ liệu web không có giấy phép, mặc dù trước đó đã cam kết sử dụng "dữ liệu cấp doanh nghiệp, sạch và có giấy phép thương mại". Microsoft đã huấn luyện một phần các mô hình MAI mới của mình bằng dữ liệu web không có giấy phép. Tài liệu kỹ thuật cho thấy Microsoft đã sử dụng Common Crawl, cùng với các nguồn khác, như Simon Willison đã lưu ý. Trước đó, Microsoft đã tuyên bố các mô hình MAI được huấn luyện chỉ bằng "dữ liệu cấp doanh nghiệp, sạch và có giấy phép thương mại". Giống như các công ty AI khác thu thập dữ liệu từ web, Microsoft có thể đang dựa vào nguyên tắc sử dụng hợp lý (fair use). Tài liệu mô tả dữ liệu là "sự kết hợp giữa dữ liệu do con người tạo ra, có sẵn công khai và có giấy phép". Đối với dữ liệu web, Microsoft cho biết họ sử dụng "một trình thu thập thông tin độc quyền tuân thủ Giao thức loại trừ Robots (robots.txt) và các thẻ meta, điều khiển HTML liên quan, cho phép chủ sở hữu trang web quản lý cách nội dung trên trang web của họ được truy cập và sử dụng". Điều này đặt gánh nặng bảo vệ nội dung lên các chủ sở hữu trang web, giống như việc cho rằng bất kỳ ai không khóa cửa đều đồng ý cho việc đột nhập. Nguyên tắc sử dụng hợp lý vẫn đang gây tranh cãi và các tòa án vẫn đang giải quyết vấn đề này. Tóm lại, Microsoft làm những gì mọi công ty AI khác làm, nhưng lại quảng cáo dữ liệu huấn luyện của mình là đặc biệt "sạch". Thực tế không phải vậy.

Microsoft đã đào tạo các mô hình MAI của mình bằng dữ liệu web không có giấy phép, mặc dù đã cam kết sử dụng "dữ liệu cấp doanh nghiệp, sạch và có giấy phép thương mại".