Bỏ qua tới nội dung chính
Quay lại tin tức

Gemini 3.5 Flash: đắt hơn, nhưng Google có kế hoạch sử dụng cho mọi thứ Google đã công bố một loạt các bản cập nhật cho các mô hình Gemini của mình, bao gồm Gemini 1.5 Pro và 1.5 Flash. Mặc dù Gemini 1.5 Pro đã có sẵn cho các nhà phát triển và người dùng doanh nghiệp, nhưng Gemini 1.5 Flash là một mô hình mới được thiết kế để trở thành một mô hình nhỏ hơn, nhanh hơn và tiết kiệm chi phí hơn. Gemini 1.5 Flash được xây dựng dựa trên cùng kiến trúc với Gemini 1.5 Pro, nhưng được tinh chỉnh để có hiệu suất cao hơn trong các tác vụ cụ thể. Điều này có nghĩa là nó có thể xử lý các tác vụ như tóm tắt, tạo văn bản và dịch thuật nhanh hơn và hiệu quả hơn so với các mô hình lớn hơn. Mặc dù Gemini 1.5 Flash được thiết kế để tiết kiệm chi phí hơn, nhưng Google đã tuyên bố rằng nó sẽ đắt hơn Gemini 1.5 Pro. Điều này có thể là do Gemini 1.5 Flash được tối ưu hóa cho các tác vụ cụ thể, điều này có thể yêu cầu nhiều tài nguyên tính toán hơn. Google có kế hoạch sử dụng Gemini 1.5 Flash cho nhiều ứng dụng khác nhau, bao gồm các sản phẩm và dịch vụ của riêng mình, cũng như cung cấp nó cho các nhà phát triển thông qua API. Điều này cho thấy Google đang đặt cược lớn vào Gemini 1.5 Flash và tin rằng nó sẽ đóng một vai trò quan trọng trong tương lai của AI. Một trong những ứng dụng chính của Gemini 1.5 Flash là trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP). Nó có thể được sử dụng để tóm tắt các tài liệu dài, tạo ra các bản dịch chất lượng cao và thậm chí tạo ra các bài viết tin tức. Gemini 1.5 Flash cũng có thể được sử dụng trong các ứng dụng thị giác máy tính, chẳng hạn như nhận dạng đối tượng và phân tích hình ảnh. Điều này có thể hữu ích trong nhiều ngành công nghiệp, từ sản xuất đến chăm sóc sức khỏe. Nhìn chung, Gemini 1.5 Flash là một mô hình AI mạnh mẽ và linh hoạt, có tiềm năng cách mạng hóa nhiều ngành công nghiệp. Mặc dù nó có thể đắt hơn các mô hình khác, nhưng hiệu suất và hiệu quả của nó có thể làm cho nó trở thành một khoản đầu tư đáng giá cho các doanh nghiệp và nhà phát triển.

Simon Willison· 19/5/2026general

Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một phương pháp mới để tạo ra các hình ảnh 3D có thể điều khiển được từ một hình ảnh 2D duy nhất. Phương pháp này, được gọi là "3D-aware Conditional Diffusion" (Khuếch tán có điều kiện nhận biết 3D), sử dụng mô hình khuếch tán để tạo ra các hình ảnh 3D nhất quán từ nhiều góc độ khác nhau. Mô hình này được đào tạo trên một tập dữ liệu lớn gồm các hình ảnh 2D và 3D, cho phép nó học cách tạo ra các hình ảnh 3D thực tế và có thể điều khiển được. Sau khi được đào tạo, mô hình có thể tạo ra một hình ảnh 3D từ một hình ảnh 2D duy nhất, sau đó có thể được điều khiển để thay đổi góc nhìn, ánh sáng và các thuộc tính khác. Phương pháp này có một số ứng dụng tiềm năng, bao gồm tạo nội dung cho thực tế ảo và tăng cường, tạo mô hình 3D cho trò chơi điện tử và phim ảnh, và tạo ra các hình ảnh 3D thực tế cho thương mại điện tử. Các nhà nghiên cứu đã phát hành mã nguồn và mô hình được đào tạo trước của họ trên GitHub.

Gemini 3.5 Flash: đắt hơn, nhưng Google dự kiến sử dụng cho mọi thứ Simon Willison’s Weblog Đăng ký Được tài trợ bởi: Datadog — Triển khai AI đáng tin cậy nhanh hơn với LLM Observability. Đọc hướng dẫn thực hành tốt nhất Gemini 3.5 Flash: đắt hơn, nhưng Google dự kiến sử dụng cho mọi thứ Ngày 19/5/2026 Hôm nay tại Google I/O, Google đã phát hành Gemini 3.5 Flash. Phiên bản này đã bỏ qua hậu tố "-preview" và ra mắt trực tiếp dưới dạng phiên bản chính thức, và Google dường như đang sử dụng nó cho rất nhiều sản phẩm chủ chốt của mình: 3.5 Flash hiện đã có sẵn cho hàng tỷ người trên toàn cầu: Dành cho mọi người thông qua ứng dụng Gemini và Chế độ AI trong Google Search. Dành cho nhà phát triển trong nền tảng phát triển ưu tiên tác nhân Google Antigravity và Gemini API trong Google AI Studio và Android Studio. Dành cho doanh nghiệp trong Nền tảng Tác nhân Doanh nghiệp Gemini và Gemini Enterprise. Như thường lệ với Gemini, các chi tiết thú vị nhất được ẩn trong tài liệu dành cho nhà phát triển "What’s new in Gemini 3.5 Flash". Nó chủ yếu có cùng bộ tính năng nền tảng với dòng Gemini 3.x trước đó, mặc dù không có tính năng sử dụng máy tính. ID mô hình là gemini-3.5-flash. Thời điểm cắt dữ liệu là tháng 1/2025, và nó hỗ trợ 1.048.576 token đầu vào và tối đa 65.536 token đầu ra. Google cũng đang thúc đẩy một API Tương tác mới, hiện đang trong giai đoạn beta, mà theo tôi, trông giống như phiên bản của họ về các mẫu được giới thiệu bởi OpenAI Responses — đặc biệt là quản lý lịch sử phía máy chủ. Giá đã tăng Gemini 3.5 Flash đi kèm với một đợt tăng giá đáng kể. Các mô hình trước đó trong dòng "Flash" là Gemini 3 Flash Preview và Gemini 3.1 Flash-Lite. Phiên bản 3.5 Flash mới có giá gấp 3 lần so với 3 Flash Preview và gấp 6 lần so với 3.1 Flash-Lite (xem so sánh giá tại đây). Với mức giá 1,50 USD/triệu token đầu vào và 9 USD/triệu token đầu ra, nó đang tiến gần đến mức giá của Gemini 3.1 Pro của Google, vốn là 2 USD và 12 USD. Nhóm Gemini hứa hẹn rằng 3.5 Pro sẽ ra mắt "tháng tới" — có lẽ với mức giá còn cao hơn. Điều này phù hợp với một xu hướng: GPT-5.5 của OpenAI có giá gấp đôi GPT-5.4, và Claude Opus 4.7 có giá khoảng 1,46 lần so với 4.6 khi tính đến tokenizer mới. Với việc tăng giá, thật thú vị khi thấy Google triển khai nó cho rất nhiều sản phẩm miễn phí cho người tiêu dùng của mình. Có vẻ như cả ba phòng thí nghiệm AI lớn đang bắt đầu thăm dò khả năng chịu giá của khách hàng API của họ. Artificial Analysis công bố chi phí để chạy điểm chuẩn độc quyền của họ đối với các mô hình, đây là một cách hữu ích để tính đến các yếu tố như tokenization và khối lượng token lý luận tăng lên. Một số con số đáng so sánh: Gemini 3.5 Flash (cao): 1.551,60 USD Gemini 3.1 Pro Preview: 892,28 USD Gemini 3 Flash Preview (Lý luận): 278,26 USD Gemini 3.1 Flash-Lite Preview: 93,60 USD Chạy điểm chuẩn cho 3.5 Flash (cao) tốn kém hơn đáng kể so với 3.1 Pro Preview! Dưới đây là một số con số từ các nhà cung cấp khác: Claude Opus 4.7 (Lý luận thích ứng, Nỗ lực tối đa): 5.117,14 USD Claude Opus 4.7 (Không lý luận, Nỗ lực cao): 1.217,23 USD GPT-5.5 (rất cao): 3.357,00 USD GPT-5.5 (trung bình): 1.199,14 USD Một con bồ nông trên xe đạp Tôi đã chạy lệnh "Tạo một SVG của một con bồ nông đang đi xe đạp" thông qua Gemini API và nhận được hình ảnh con bồ nông này, khá ấn tượng: Từ các bình luận trong mã: <!-- Mắt bồ nông / Kính râm (Kính phi công cổ điển sành điệu) --> hedgehog trên Hacker News: Con bồ nông đó trông như đang ở Miami dự một hội nghị tiền điện tử. Hình ảnh đó đã tiêu tốn của tôi 11 token đầu vào và 14.403 token đầu ra, với tổng chi phí chỉ dưới 13 cent. Đăng ngày 19/5/2026 lúc 22:40 &middot; Theo dõi tôi trên Mastodon, Bluesky, Twitter hoặc đăng ký nhận bản tin của tôi Các bài viết gần đây hơn Sáu tháng qua trong lĩnh vực LLM (mô hình ngôn ngữ lớn) trong năm phút - 19/5/2026 Ghi chú về thỏa thuận trung tâm dữ liệu xAI/Anthropic - 7/5/2026 Đây là Gemini 3.5 Flash: đắt hơn, nhưng Google dự định sử dụng nó cho mọi thứ, bởi Simon Willison, đăng ngày 19/5/2026. google 408 ai 2026 generative-ai 1793 llms 1759 gemini 186 llm-pricing 73 pelican-riding-a-bicycle 115 llm-release 200 Bài trước: Sáu tháng qua trong lĩnh vực LLM trong năm phút Thông tin tóm tắt hàng tháng Hãy tài trợ cho tôi 10 USD/tháng và nhận bản tóm tắt email được chọn lọc về những phát triển LLM quan trọng nhất trong tháng. Trả tiền để tôi gửi cho bạn ít hơn! Tài trợ & đăng ký Tiết lộ Lời bạt &copy; 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026

Nguồn tin: Simon Willison. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.