OpenAI Sora คือ โมเดล AI ที่สร้างวิดีโอจากข้อความได้สมจริง!
OpenAI ผู้พัฒนา ChatGPT เปิดตัวโมเดล AI Video ใหม่ล่าสุด ในชื่อ Sora ที่มีความสามารถในการสร้างสรรค์วิดีโอจากข้อความได้ ซึ่งคำว่า Sora มาจากภาษาญี่ปุ่นแปลว่า “ท้องฟ้า” ที่อาจจะต้องการสื่อถึงสิ่งที่เหนือจินตนาการ ตามคุณสมบัติของ OpenAI Sora ก็เป็นได้
โดย ทิม บรูกส์ นักวิทยาศาสตร์จาก OpenAI กล่าวไว้ในบทความของ MIT Technology Review ถึง OpenAI Sora ว่า การสร้างโมเดล AI ที่สามารถเข้าใจวิดีโอและสามารถเข้าใจการโต้ตอบที่ซับซ้อนได้ถือเป็นขั้นตอนสำคัญสำหรับระบบ AI ในอนาคต” ซึ่งการขยายขอบเขตความสามารถของ AI ในการสร้างสรรค์วิดีโอจากข้อความ ถือเป็นทิศทางการวิจัยที่ควรจับตามองมากที่สุดในปี 2024
สารบัญ
OpenAI Sora คืออะไร
Sora คือ โมเดลปัญญาประดิษฐ์หรือ Generative Video Model ที่สามารถสร้างสรรค์วิดีโอที่มีความยาวนานสูงสุด 1 นาที ได้อย่างสมจริงและล้ำจินตนาการ จากคำสั่งข้อความ (Prompt) เพียงไม่กี่ประโยคเท่านั้น! โดยที่ยังคงรักษาทั้งคุณภาพของภาพและทำได้ตาม Prompt ที่ผู้ใช้งานเขียน
การปรากฏตัวของ Generative Video Model หรือ AI Video
Generative Video Model รุ่นแรก ๆ ที่มีความสามารถในการสร้างวิดีโอสั้น ๆ จากข้อความเริ่มปรากฎให้เห็นช่วงปลายปี 2022 ทั้งจาก Meta, Google และสตาร์ทอัปอย่าง Runway แต่ยังมีข้อผิดพลาด ทำให้ภาพวิดีโอมีรายละเอียดที่ไม่ชัดเจนเท่าใดนัก แต่ล่าสุดในการเปิดตัว OpenAI Sora นี้ถูกอ้างว่าสามารถสร้างสรรค์ฉากที่ซับซ้อนได้ โดยมีตัวละครหลายตัว ประเภทของการเคลื่อนไหวที่เฉพาะเจาะจง รวมถึงรายละเอียดที่แม่นยำของทั้งวัตถุและพื้นหลัง นอกจากโมเดล AI จะเข้าใจคำสั่ง Prompt ของผู้ใช้งานแล้ว ก็ยังเข้าใจด้วยว่าสิ่งที่อยู่ในวิดีโอมีปฏิสัมพันธ์กันอย่างไรในโลกกายภาพ
OpenAI Sora สามารถสร้างสรรค์ตัวละครที่มีชีวิตชีวา
Sora มีความสามารถในการเข้าใจภาษาอย่างลึกซึ้ง ช่วยให้แปลความจาก Prompt ได้อย่างแม่นยำ และสร้างตัวละครที่มีชีวิตชีวา และสามารถแสดงออกทางอารมณ์ได้อย่างหลากหลาย นอกจากนี้ Sora ยังสามารถสร้างช็อตภาพต่าง ๆ ภายในวิดีโอเดียว โดยคงความต่อเนื่องของตัวละครและสไตล์ภาพได้อย่างถูกต้อง อย่างไรก็ตามแม้จะเปิดตัวให้ทำความรู้จักแต่ OpenAI Sora ก็ยังคงอยู่ระหว่างการพัฒนา โดยทีมนักวิทยาศาสตร์ระบุว่าพวกเขากำลังฝึกฝน AI ให้เข้าใจและจำลองโลกทางกายภาพแบบเคลื่อนไหว ด้วยเป้าหมายที่จะฝึกฝนโมเดล AI นี้ ให้เข้าใจการใช้งานที่ต้องมีการโต้ตอบกันในโลกแห่งความจริง
ในการเปิดตัว Sora ครั้งนี้ เป็นการเปิดตัวให้ทีมประเมินความเสี่ยงด้านความปลอดภัย ที่เรียกกันว่า Red Teams เพื่อประเมินจุดสำคัญที่อาจเกิดอันตรายหรือความเสี่ยง นอกจากนี้ ทีมงานยังอนุญาตให้ศิลปิน นักออกแบบ และผู้สร้างภาพยนตร์บางส่วนสามารถเข้าถึงโมเดลนี้ได้ เพื่อเปิดรับฟังความคิดเห็นเกี่ยวกับวิธีการพัฒนาโมเดล ให้เกิดประโยชน์สูงสุดสำหรับผู้เชี่ยวชาญด้านงานสร้างสรรค์
เทคนิคการวิจัย OpenAI Sora
Sora เป็นโมเดลแบบ “Diffusion” ที่สร้างสรรค์วิดีโอโดยเริ่มจากภาพที่มีลักษณะเหมือนสัญญาณรบกวน จากนั้นค่อยๆ เปลี่ยนภาพนั้นทีละน้อย จนกลายเป็นวิดีโอที่สมบูรณ์
Sora สามารถสร้างวิดีโอตั้งแต่ต้นจนจบได้ในครั้งเดียว หรือต่อความยาวของวิดีโอที่สร้างไว้แล้ว โดยการให้โมเดลเห็นล่วงหน้าหลายเฟรมในแต่ละครั้ง ซึ่งช่วยแก้ปัญหาในการรักษาความต่อเนื่องของตัวละคร หรือวัตถุที่หายออกจากเฟรมไปชั่วครู่ เช่นเดียวกับโมเดล ChatGPT, Sora ใช้ Transformer Architecture ที่ช่วยให้ประสิทธิภาพการเรียนรู้ดีขึ้น โดยจะแทนวิดีโอและภาพด้วยหน่วยข้อมูลขนาดเล็กที่เรียกว่า “Patch” ซึ่งเปรียบได้กับ ” Token” ใน GPT การเชื่อมโยงวิธีการแทนข้อมูลนี้ ช่วยให้สามารถฝึก Diffusion Transformers กับข้อมูลภาพได้หลากหลายรูปแบบมากกว่าเดิม ไม่ว่าจะเป็นความยาว, ความละเอียด หรืออัตราส่วนภาพ
Sora เป็นการพัฒนาต่อยอดมาจากงานวิจัยก่อนหน้านี้ ของโมเดล DALL·E และ GPT โดยใช้เทคนิค “Recaptioning” จาก DALL·E 3 ซึ่งเป็นการสร้างคำบรรยายประกอบสำหรับข้อมูลภาพในระหว่างการเทรนนิ่ง ผลลัพธ์คือ โมเดลสามารถปฏิบัติตาม Prompt ในวิดีโอที่สร้างได้อย่างแม่นยำมากยิ่งขึ้น
นอกจากการสร้างวิดีโอจาก Prompt แล้ว โมเดล AI Video ยังสามารถนำภาพนิ่งที่มีอยู่แล้วมาสร้างวิดีโอจากภาพนั้น และยังทำให้ภาพเคลื่อนไหวอย่างมีชีวิตชีวาด้วยความแม่นยำและใส่ใจรายละเอียดเล็ก ๆ น้อย ๆ นอกจากนี้ โมเดลยังสามารถใช้กับวิดีโอที่มีอยู่เดิม เพื่อยืดความยาวหรือเติมเฟรมที่หายไปได้ด้วย
ดังนั้นอาจกล่าวได้ว่า Sora เปรียบเสมือนรากฐานสำหรับโมเดล AI ที่สามารถเข้าใจและจำลองโลกแห่งความจริงได้ ซึ่งความสามารถนี้ เชื่อว่าจะเป็นก้าวสำคัญของ AGI (Artificial General Intelligence) หรือปัญญาประดิษฐ์ทั่วไป
สิ่งที่ยังต้องพัฒนาของ OpenAI Sora
ถึงแม้จะมีความสามารถที่น่าทึ่ง แต่เพราะยังอยู่ในช่วงของการพัฒนา ทำให้ Sora ยังคงมีสิ่งที่ยังต้องพัฒนาอยู่บ้าง นั่นคือ
- จำลองฉากที่ซับซ้อนได้ไม่แม่นยำ ในบางครั้ง โมเดล Sora อาจมีปัญหาในการจำลองฉากที่ซับซ้อนได้ไม่แม่นยำ เช่น หากมีการสั่งให้สร้างวิดีโอคนกัดคุกกี้ อาจปรากฏเป็นคนกัดคุกกี้ แต่คุกกี้กลับไม่เห็นรอยแหว่งที่เกิดจากการกัด
- ทำความเข้าใจความสัมพันธ์ที่เป็นเหตุและผลเฉพาะสถานการณ์ไม่ได้ โมเดล AI อาจไม่เข้าใจความสัมพันธ์ที่เป็นเหตุและผลในบางสถานการณ์ เช่น อาจไม่เข้าใจว่าการกระทำใดกระทำหนึ่งจะนำไปสู่ผลลัพธ์ใด
- สับสนในรายละเอียดเชิงพื้นที่ โมเดลอาจมีความสับสนในรายละเอียดเชิงพื้นที่ เช่น สับสนระหว่างซ้ายและขวา
- ไม่สามารถอธิบายเหตุการณ์ตามลำดับเวลาได้อย่างแม่นยำ โมเดลอาจมีปัญหาในการอธิบายเหตุการณ์ตามลำดับเวลา เช่น การติดตามเส้นทางการเคลื่อนที่ของกล้องในฉากวิดีโอที่ซับซ้อน
อย่างไรก็ตาม จุดอ่อนเหล่านี้นักพัฒนาทราบดีและกำลังพัฒนาโมเดลอย่างต่อเนื่อง เพื่อให้มีความสามารถและแม่นยำมากขึ้น
ความปลอดภัย
ก่อนที่ OpenAI จะเปิดตัว SORA ให้สามารถใช้งานได้ ทีมพัฒนาให้ความสำคัญและดำเนินการด้านความปลอดภัยที่สำคัญหลายประการ ดังนี้
- ทดสอบกับ Red Teams ซึ่งเป็นผู้เชี่ยวชาญในด้านต่าง ๆ เช่น ข้อมูลเท็จ, เนื้อหาที่สร้างความเกลียดชัง และเนื้อหาที่มีอคติ โดยทีมจะทดสอบโมเดลอย่างเข้มข้นเพื่อประเมินความเสี่ยงต่าง ๆ ที่อาจจะเกิดขึ้น
- สร้างเครื่องมือตรวจจับเนื้อหาที่เข้าใจผิด ทีม OpenAI กำลังสร้างเครื่องมือช่วยตรวจจับเนื้อหาที่เข้าใจผิด เช่น ระบบตรวจจับวิดีโอที่สร้างโดย Sora
- ใช้ C2PA Metadata หากมีการตัดสินใจนำโมเดล Sora เข้าไปในผลิตภัณฑ์ของ OpenAI ทีมงานวางแผนที่จะใช้ C2PA metadata เพื่อใช้ระบุว่าวิดีโอถูกสร้างโดย Sora
- ใช้เทคนิคด้านความปลอดภัยที่มีอยู่ นอกจากการพัฒนาเทคนิคใหม่ๆ แล้ว ยังมีการใช้เทคนิคด้านความปลอดภัยที่มีอยู่เดิมสำหรับผลิตภัณฑ์ที่ใช้ DALL·E 3 ซึ่งเทคนิคเหล่านั้นสามารถนำมาใช้กับ Sora ได้ด้วย
- ตัวกรองข้อความและภาพ ตัวกรองข้อความจะตรวจสอบและปฏิเสธคำแนะนำข้อความ ที่ละเมิดนโยบายการใช้งานของ OpenAI เช่น คำแนะนำที่ขอความรุนแรงรุนแรง, เนื้อหาที่เกี่ยวข้องกับทางเพศ, ภาพที่สร้างความเกลียดชัง, รูปลักษณ์ของคนดัง หรือทรัพย์สินทางปัญญาของผู้อื่น นอกจากนี้ ยังพัฒนาตัวกรองภาพที่แข็งแกร่ง เพื่อตรวจสอบเฟรมของวิดีโอที่สร้างทุกเฟรม เพื่อให้แน่ใจว่าตรงตามนโยบายการใช้งานก่อนแสดงให้ผู้ใช้
- รับฟังผู้เชี่ยวชาญ โดยร่วมมือกับผู้กำหนดนโยบาย, นักการศึกษา และศิลปินทั่วโลก เพื่อรับฟังความกังวลของพวกเขาและระบุกรณีการใช้งานเชิงบวกสำหรับเทคโนโลยีใหม่นี้ ถึงแม้จะมีการวิจัยและทดสอบอย่างกว้างขวาง แต่ก็ไม่สามารถคาดการณ์ได้ว่าผู้คนจะใช้เทคโนโลยีไปในทางที่ดีทั้งหมด หรือใช้ในทางที่ไม่เหมาะสมอย่างไร ดังนั้นการเรียนรู้จากการใช้งานจริงเป็นส่วนสำคัญในการสร้างและเผยแพร่ระบบ AI ที่ปลอดภัยยิ่งขึ้นเรื่อย ๆ
แม้ว่า OpenAI Sora ยังอยู่ระหว่างการพัฒนาไปสู่ความสมบูรณ์แบบในการใช้งาน แต่ก็นับเป็นก้าวกระโดดที่สำคัญของการสร้างสรรค์วิดีโอจากการแปลงข้อความที่ทุกคนสามารถทำได้ หรือ Generative Video Model ที่น่าจับตามอง และคงเป็นเทคโนโลยีที่น่าจะร้อนแรงที่สุดในปีนี้
บทความที่เกี่ยวข้อง: Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้!