Mô hình AI mới "anything-to-anything" của Google rất ấn tượng…

Năm 2023, các nhà khoa học đã đạt được những tiến bộ đáng kể trong việc phát triển các mô hình AI có khả năng tạo ra hình ảnh, văn bản và âm thanh chân thực. Những mô hình này, được gọi là mô hình tạo sinh (generative models), đã mở ra những khả năng mới cho nhiều ứng dụng, từ sáng tạo nghệ thuật đến thiết kế sản phẩm. Một trong những phát triển nổi bật nhất là sự ra đời của các mô hình ngôn ngữ lớn (LLM) như GPT-4. Các LLM này có thể tạo ra văn bản mạch lạc và có liên quan đến ngữ cảnh, thực hiện các tác vụ như dịch thuật, tóm tắt và viết mã. Chúng đã được tích hợp vào nhiều công cụ và nền tảng, cách mạng hóa cách chúng ta tương tác với thông tin và tạo ra nội dung. Trong lĩnh vực hình ảnh, các mô hình khuếch tán (diffusion models) như Stable Diffusion và DALL-E 3 đã đạt được những bước tiến vượt bậc. Các mô hình này có thể tạo ra hình ảnh chất lượng cao từ mô tả văn bản, cho phép người dùng tạo ra các tác phẩm nghệ thuật, thiết kế và minh họa độc đáo. Chúng cũng đã được sử dụng để nâng cao hình ảnh hiện có và tạo ra nội dung tổng hợp cho các ứng dụng thực tế ảo và tăng cường. Ngoài ra, các nhà nghiên cứu đã phát triển các mô hình AI có khả năng tạo ra âm thanh chân thực, bao gồm giọng nói, âm nhạc và hiệu ứng âm thanh. Những mô hình này có tiềm năng cách mạng hóa các ngành công nghiệp như giải trí, trò chơi và sản xuất âm thanh. Tuy nhiên, sự phát triển của các mô hình AI tạo sinh cũng đặt ra những thách thức và mối lo ngại. Một trong những mối lo ngại chính là khả năng tạo ra thông tin sai lệch và nội dung giả mạo. Khi các mô hình này trở nên tinh vi hơn, việc phân biệt giữa nội dung thật và nội dung do AI tạo ra ngày càng khó khăn. Điều này có thể có những tác động nghiêm trọng đến xã hội, bao gồm sự lan truyền thông tin sai lệch và xói mòn niềm tin vào các nguồn thông tin. Một mối lo ngại khác là tiềm năng lạm dụng các mô hình AI tạo sinh cho các mục đích độc hại, chẳng hạn như tạo ra các cuộc tấn công lừa đảo tinh vi hoặc nội dung gây hại. Điều quan trọng là phải phát triển các biện pháp bảo vệ và quy định để ngăn chặn việc lạm dụng này và đảm bảo việc sử dụng AI có trách nhiệm. Tóm lại, năm 2023 đã chứng kiến những tiến bộ đáng kể trong lĩnh vực AI tạo sinh, mở ra những khả năng mới cho nhiều ứng dụng. Tuy nhiên, điều quan trọng là phải giải quyết những thách thức và mối lo ngại liên quan đến công nghệ này để đảm bảo việc sử dụng AI có trách nhiệm và có lợi cho xã hội.

TechCloseTech Các bài đăng từ chủ đề này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả Tech AICloseAI Các bài đăng từ chủ đề này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả AI GoogleCloseGoogle Các bài đăng từ chủ đề này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả Google Mô hình AI “anything-to-anything” mới của Google rất ấn tượng Omni đã đưa thú nhồi bông của con tôi đi bè và tạo deepfake tôi trước Tháp Eiffel. Tuy nhiên, đây chưa phải là một bước đột phá hoàn toàn. bởi Allison JohnsonClose Allison Johnson Các bài đăng từ tác giả này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả bài viết của Allison Johnson Ngày 23/5/2026, 11:00 AM UTC Liên kết Chia sẻ Tặng Một chú hươu nhồi bông đang tận hưởng cuộc sống. | Ảnh: Gemini / The Verge Một phần của Google I/O 2026: Tất cả tin tức và thông báo xem tất cả cập nhật Allison JohnsonClose Allison Johnson Các bài đăng từ tác giả này sẽ được thêm vào bản tóm tắt email hàng ngày và nguồn cấp dữ liệu trang chủ của quý vị. Theo dõiTheo dõiXem tất cả bài viết của Allison Johnson là một chuyên gia đánh giá cấp cao với hơn một thập kỷ kinh nghiệm viết về công nghệ tiêu dùng. Bà đặc biệt quan tâm đến nhiếp ảnh di động và viễn thông. Trước đây, bà từng làm việc tại DPReview. Năm ngoái, tôi đã tạo deepfake thú nhồi bông của con mình để trông như thể chú hươu nhồi bông đang đi nghỉ mát. Đây là một thử nghiệm để xem liệu tôi có thể tái tạo các sự kiện được mô tả trong một quảng cáo Gemini mà Google đang chạy hay không, và tôi chưa bao giờ cho đứa con bốn tuổi của mình xem các video về chú hươu Buddy trong những cuộc phiêu lưu của nó. Tuy nhiên, đây là một bài tập tiết lộ đã khiến tôi suy nghĩ rất nhiều về sự khác biệt giữa một trò vui vô hại với AI tạo sinh và một sản phẩm hoàn toàn cẩu thả. Có lẽ biểu đồ Venn đó là một vòng tròn hoàn hảo! Có lẽ không. Nhưng điều tôi biết chắc chắn là các công cụ để tạo video chân thực rất tốt một cách đáng ngạc nhiên, đòi hỏi rất ít nỗ lực và kiến thức. Và xu hướng đó đang tiếp tục mạnh mẽ trong kỷ nguyên Omni của Gemini. Omni là một dòng mô hình tạo sinh mới mà theo tuyên bố, một ngày nào đó sẽ có thể biến bất kỳ loại đầu vào nào – ảnh, video, văn bản – thành bất kỳ thứ gì khác. Nhưng ban đầu, nó chỉ tạo video. Omni Flash là mô hình đầu tiên trong số này mà Google đã phát hành, hiện có sẵn trong nền tảng tạo và chỉnh sửa video AI của công ty, Flow. Quý vị vẫn có thể sử dụng mô hình trước đó, Veo, nếu muốn, nhưng Omni cải thiện Veo ở một số khía cạnh. Với Omni, quý vị có thể tải lên một video và sử dụng nó cùng với một lời nhắc văn bản làm điểm khởi đầu cho tác phẩm do AI tạo ra của mình. Google cũng tuyên bố Omni kết hợp nhiều kiến thức thực tế hơn khi tạo video và có thể giữ cho các nhân vật nhất quán hơn trong suốt video. Chỉ có một cách để thực sự biết liệu những tuyên bố đó có đúng hay không: Tôi đã đưa AI Buddy trở lại để đóng gói những chiếc túi nhỏ do AI tạo ra của nó cho một cuộc phiêu lưu khác. Kết quả rất hỗn tạp đến mức khó hiểu. Một số rất tốt – nhất quán hơn và đúng với lời nhắc của tôi hơn so với khi tôi thử nghiệm Veo năm tháng trước. Nhưng ngay cả những đoạn clip tốt nhất mà Omni tạo ra cho tôi vẫn có những khoảnh khắc giật mình do AI, như khi Buddy đột nhiên thay đổi hướng khi đang nhảy dù. Trong một video khác, tôi đã để Omni tự do sáng tạo. "Hãy tạo một đoạn phim ghép cảnh Buddy đóng gói hành lý đi nghỉ mát và lên tàu du lịch cho một kỳ nghỉ nhiệt đới. Tâm trạng dễ thương và vui tươi. Buddy đóng gói một thứ gì đó ngộ nghĩnh vào vali mà sau này sẽ xuất hiện trong clip." Đoạn phim có cảnh Buddy đóng gói một lọ mật ong; sau đó trong clip, cậu bé lấy nó ra như thể đó là một chai kem chống nắng. "Ôi không," nhân vật nói khi cậu bé bóp mật ong lên móng guốc của mình. Thành thật mà nói, đó không phải là một đoạn phim tồi. Ngoại trừ việc chai mật ong liên tục thay đổi trong suốt video, từ một cái lọ, sang một chai xịt trong suốt chứa đầy nước, rồi lại trở về một chai bóp chứa đầy mật ong. Và tôi thậm chí không thể bắt đầu mô tả cách mô hình tạo ra khung hình cuối cùng của video – gần như thể nó vừa nôn ra một loạt các yếu tố của chuỗi mà nó vừa tạo ra. Người dùng có thể sử dụng các lời nhắc dựa trên văn bản để đề xuất chỉnh sửa video của mình, và tôi phải công nhận Google: Điều này hoạt động tốt hơn với Omni so với khi tôi thử nghiệm Veo 3. Nhưng kết quả với Veo rất tệ – tệ đến mức tôi thấy dễ dàng hơn nhiều khi chỉ cần tạo một video mới từ đầu mỗi khi tôi muốn thay đổi điều gì đó. Omni thực sự sẽ tiếp thu các chỉnh sửa của bạn, nhưng kết quả không phải lúc nào cũng đạt yêu cầu. Tôi đã yêu cầu nó nhấn mạnh phản ứng trên khuôn mặt của Buddy trong các clip kỳ nghỉ của cậu bé, và kết quả chỉ trông kỳ lạ. Nó cũng thỉnh thoảng thêm gạc cho Buddy, điều mà cậu bé không có. Buddy là một em bé, xin cảm ơn rất nhiều. Khi tôi yêu cầu nó loại bỏ gạc xuất hiện trong một cảnh, nó đã làm theo – và sau đó thêm gạc vào tất cả các cảnh khác. Vấn đề là, tất cả những điều này không miễn phí. Việc tạo video tốn tín dụng, dao động từ 15 đến 40 tín dụng tùy thuộc vào độ dài của cảnh và "nguyên liệu" bạn bắt đầu. Một vòng chỉnh sửa tốn 40 tín dụng. Tôi có gói AI Pro 20 USD/tháng đi kèm 1.000 tín dụng mỗi tháng. Sau khoảng 20 clip được tạo với một vài chỉnh sửa trên một số clip, tôi còn lại 145 tín dụng. Nếu bạn có những ý tưởng cụ thể về video bạn muốn Omni tạo, bạn có thể phải đối mặt với rất nhiều lần trao đổi tốn kém với mô hình để có được một video gần với tầm nhìn của bạn. Tôi thực sự có thể nói rằng tôi không chuẩn bị cho những gì tôi đã thấy Một trong những điểm mạnh được cho là của Omni là thêm nội dung do AI tạo vào các video thực, vì vậy tôi đã cho Buddy nghỉ ngơi và tự deepfake bản thân. Bắt đầu với một video selfie với biểu cảm trung tính, tôi đã yêu cầu Omni tạo các video tôi đang ăn một đĩa mì Ý, ngồi trên ghế máy bay và đứng trước Tháp Eiffel cắn một chiếc bánh mì baguette. Và tôi thực sự có thể nói rằng tôi không chuẩn bị cho những gì tôi đã thấy. Có những dấu hiệu AI trong các video deepfake của tôi. Tiếng lách cách của chiếc nĩa chạm vào bát mì ống hơi quá giả tạo. Có một người phụ nữ ở hậu cảnh video máy bay xuất hiện hai lần. Nhưng ngoài những lỗi nhỏ đó và một cảm giác hơi kỳ lạ về chúng, chúng

Mô hình AI mới "anything-to-anything" của Google rất ấn tượng.