OpenAI: Sora sẽ là cột mốc quan trọng để đạt được siêu trí tuệ nhân tạo AGI
Sora - mô hình trí tuệ nhân tạo (AI) tạo video từ văn bản do OpenAI phát triển đang gây sốt trong cộng đồng công nghệ. OpenAI tin rằng khả năng hiểu và mô phỏng thế giới thực của Sora sẽ là một cột mốc quan trọng để đạt được siêu trí tuệ nhân tạo AGI.
Sora - cơn sốt mới trong ngành trí tuệ nhân tạo
OpenAI - công ty tiên phong trong lĩnh vực trí tuệ nhân tạo (AI), nhà phát triển ChatGPT - đã công bố một bước đột phá mới trong lĩnh vực tạo video với mô hình AI tiên tiến mang tên Sora. Trong tiếng Nhật, "Sora" có nghĩa là bầu trời. Nhóm nghiên cứu đứng sau công nghệ này chọn cái tên này bởi nó gợi lên ý tưởng về tiềm năng sáng tạo không giới hạn.
Nói về Sora, OpenAI cho biết: "Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật chất đang chuyển động, với mục tiêu đào tạo các mô hình giúp con người giải quyết các vấn đề yêu cầu tương tác trong thế giới thực".
Mô hình AI Sora được thiết kế để tạo ra các video có độ phân giải cao, hợp logic chuyển động vật lý và đầy sáng tạo chỉ từ một đoạn văn mô tả. Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh. Công cụ này không chỉ hiểu những gì người dùng yêu cầu trong văn bản mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực.
Theo OpenAI, Sora có sự hiểu biết sâu sắc về ngôn ngữ, cho phép diễn giải chính xác các gợi ý và tạo ra các nhân vật hấp dẫn thể hiện cảm xúc chân thực. Sora cũng có thể tạo nhiều cảnh quay trong một video duy nhất để duy trì chính xác các yêu cầu và phong cách hình ảnh.
Có khả năng đáng kinh ngạc nhưng hiện tại Sora vẫn có điểm yếu. Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp và có thể không hiểu các trường hợp cụ thể về nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, chiếc bánh quy có thể không có vết cắn. Mô hình này cũng có thể nhầm lẫn các chi tiết về không gian, như lẫn lộn trái và phải hay gặp khó khăn với các mô tả chính xác về các sự kiện diễn ra theo thời gian, đi theo một quỹ đạo camera cụ thể.
OpenAI vẫn đang trong quá trình thử nghiệm Sora cùng với các chuyên gia đầu ngành để tìm ra các điểm yếu và cải thiện chất lượng video đầu ra. Mặc dù hiện tại công cụ này chỉ hỗ trợ tạo video dài 1 phút hoặc ngắn hơn, nhưng đây là một bước đầu quan trọng trước khi OpenAI có kế hoạch mở rộng sự tiếp cận cho đông đảo người dùng.
Trước đó, những người đam mê trí tuệ nhân tạo cũng đã thử làm quen với các mô hình AI khác như Runway, Pika, tuy nhiên chưa đạt tới độ phân giải cao như Sora. Tháng 4/2023, RunwayAI - một công ty khởi nghiệp tại New York (Mỹ) - đã giới thiệu công nghệ cho phép người dùng có thể tạo ra video chỉ bằng cách gõ một câu lệnh. Tuy nhiên, các video chỉ có thời gian ngắn, khoảng 4 giây, hình ảnh thường rất nhòe và méo mó.
Video do Sora tạo ra từ gợi ý "tham quan phòng trưng bày nghệ thuật với nhiều tác phẩm nghệ thuật đẹp mắt theo nhiều phong cách khác nhau". Nguồn: OpenAI
Sự vượt trội của Sora đang đặt OpenAI vào cuộc đua cạnh tranh với các đối thủ lớn như Meta và Google, cũng như những công ty khởi nghiệp trí tuệ nhân tạo khác như Runway AI và Stability AI trong lĩnh vực sáng tạo video dựa trên AI.
Theo đánh giá của một số chuyên gia, khi chính thức thương mại hóa, Sora có thể tác động trực tiếp đến ngành điện ảnh, truyền thông và thiết kế game. Nó có khả năng làm tăng tốc độ làm việc của các nhà làm phim, đồng thời thay thế hoàn toàn những kỹ sư đồ họa ít kinh nghiệm.
Reece Hayden - nhà phân tích cấp cao tại ABI Research - nhận định rằng, những mô hình AI như Sora có tiềm năng tạo ra sự thay đổi lớn trong thị trường giải trí kỹ thuật số. Mặc dù vẫn còn nhiều hạn chế, nhưng Sora đã mở ra những triển vọng mới, đặt ra câu hỏi về tương lai của nghệ thuật sáng tạo video. Trong tương lai, những công cụ AI như Sora thậm chí sẽ thay đổi mô hình hoạt động của các nền tảng như Netflix khi người dùng có thể sửa đoạn kết câu chuyện hoặc tự tạo bộ phim theo ý mình chỉ với những dòng văn bản.
Mặt khác, những công nghệ mới như Sora cũng đang đặt ra những mối lo ngại về vấn đề bản quyền hay cung cấp thông tin sai lệch, đặc biệt là trong bối cảnh nhiều cuộc bầu cử chính trị lớn diễn ra trên thế giới. Dữ liệu từ công ty máy học Clarity cho thấy số lượng video và ảnh deepfake do AI tạo ra năm 2023 đã tăng đến 900% so với năm trước đó. Vì vậy, lo ngại Sora có thể được sử dụng để phát tán các nội dung deepfake có hại với tốc độ nhanh chóng không phải là vô căn cứ.
Tuy nhiên, với những rủi ro về an toàn và bảo mật khi sử dụng Sora, OpenAI cho biết đang xây dựng các công cụ giúp phát hiện nội dung sai lệch, chẳng hạn như trình phân loại phát hiện có thể cho biết thời điểm video được Sora tạo ra. Ngoài việc phát triển các kỹ thuật mới để nâng cao tính năng an toàn cho Sora, OpenAI cũng tận dụng các phương pháp an toàn hiện có đã được xây dựng cho các sản phẩm sử dụng DALL·E 3 và GPT.
Ví dụ, trong sản phẩm OpenAI, trình phân loại văn bản sẽ kiểm tra và từ chối các câu lệnh vi phạm chính sách sử dụng, chẳng hạn như những yêu cầu bạo lực, nội dung khiêu dâm, hình ảnh thù địch, chân dung người nổi tiếng hoặc IP của người khác. Công ty cũng cho biết đã phát triển các công cụ phân loại hình ảnh mạnh mẽ nhằm đảm bảo video được tạo ra tuân thủ chính sách sử dụng của OpenAI trước khi hiển thị cho người dùng.
Sora sẽ là cột mốc quan trọng để đạt được siêu trí tuệ nhân tạo AGI?
Về mặt kỹ thuật, Sora được xây dựng dựa trên nghiên cứu trước đây của OpenAI về mô hình chuyển văn bản thành hình ảnh DALL-E và GPT. Nó sử dụng kỹ thuật ghi chú lại từ DALL-E 3, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng trong video được tạo một cách trung thực hơn.
Ngoài khả năng tạo video chỉ từ hướng dẫn bằng văn bản, công cụ này còn có thể chụp ảnh tĩnh và tạo video từ đó, tạo nội dung của hình ảnh chính xác đến từng chi tiết nhỏ. Mô hình này cũng có thể lấy một video hiện có và mở rộng nó hoặc điền vào các khung hình còn thiếu.
Open AI nhấn mạnh: "Sora đóng vai trò là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực - khả năng mà chúng tôi tin rằng sẽ là một cột mốc quan trọng để đạt được AGI".
Trí tuệ nhân tạo tổng quát, hay siêu trí tuệ nhân tạo (Artificial General Intelligence - AGI), được nhiều chuyên gia coi là mục tiêu cuối cùng của sự phát triển trí tuệ nhân tạo.
Thay vì mỗi công cụ AI thực hiện từng nhiệm vụ cụ thể, AGI sẽ có thể thực hiện bất kỳ nhiệm vụ nào người dùng đặt ra. Về lý thuyết, một AGI có thể hoàn thành hầu hết mọi nhiệm vụ trí tuệ mà con người hoặc động vật có thể làm, thậm chí có khả năng làm điều đó tốt hơn.
Với sự ra mắt và thành công của của những công cụ như ChatGPT của OpenAI hay Bard của Google, các cuộc thảo luận về trí tuệ nhân tạo đã chuyển từ việc liệu AGI có khả thi hay không sang thời điểm con người đạt được cột mốc này.
Tuy nhiên, khái niệm về AGI quá trừu tượng nên rất khó để nói khi nào nó sẽ trở thành sự thật. Nhiều chuyên gia cho rằng, con người sẽ mất nhiều năm, thậm chí nhiều thập kỉ nữa mới có thể tạo ra được công nghệ này.
Trong khi đó, một số người đang xem xét các phiên bản tương lai mô hình ngôn ngữ lớn (LLM) của OpenAI để xem liệu chúng có thể đạt được khả năng của AGI hay không. Mô hình GPT-5 sắp tới dự kiến sẽ hoàn thành quá trình huấn luyện vào cuối năm nay, một số chuyên gia nhận định, nó có thể đạt được khả năng của AGI.
Tỷ phú Elon Musk đã dự đoán siêu trí tuệ nhân tạo có thể trở thành sự thật vào năm 2029, trong khi một cuộc điều tra rộng hơn do Metaculus (công cụ thu thập khảo sát trực tuyến của Mỹ) thực hiện cho rằng, AGI sẽ trở thành sự thật vào tháng 10/2032.
GPT (Generative Pre-training Transformer) là một công nghệ học sâu sử dụng để tạo văn bản. GPT được phát triển bởi Công ty công nghệ OpenAI. GPT có nhiều ứng dụng trong thực tế như tạo nội dung tự động, dịch thuật tự động, xử lý ngôn ngữ tự nhiên, tạo ảnh và thiết kế đồ họa, trợ lý ảo thông minh và phân tích dữ liệu và dự đoán.
OpenAI đã phát hành loạt phiên bản AI từ GPT-3 đến GPT-4 cùng những cải tiến liên tục. GPT-4 đã gây nên nhiều cuộc tranh cãi về đạo đức lẫn an ninh thông tin và có thể ảnh hưởng đến thời gian phát hành phiên bản mới nhất là GPT-5.
Dự kiến, GPT-5 sẽ có quy mô lớn hơn so với các phiên bản trước đó. Cụ thể, GPT-5 sẽ có số lượng tham số và lớp mạng lớn hơn, từ đó giúp xử lý và phân tích các thông tin phức tạp một cách hiệu quả. GPT-5 sẽ có khả năng học tập tự động cao hơn, nắm bắt và hiểu ngữ cảnh một cách tốt hơn. GPT-5 hứa hẹn sẽ trở thành công cụ mạnh mẽ và đa dạng, đáp ứng nhiều yêu cầu và tương tác với người dùng một cách thông minh.