Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้!

กุมภาพันธ์ 4, 2025
31 mins

Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้!

สมรภูมิ Generative AI ชั่วโมงนี้ดุเดือดอย่างมาก มีการสร้างสรรค์โมเดลใหม่ ๆ ออกมาให้ตื่นตาตื่นใจกันอยู่ตลอดเวลา ที่สำคัญใช้งานได้ง่ายและดีมากขึ้นเรื่อย ๆ คนธรรมดาที่เขียนโปรแกรมไม่เป็น หรือไม่ได้เชี่ยวชาญเรื่อง AI ก็ยังสามารถใช้งานได้ดี ล่าสุดนักวิจัยจาก Google Research, Weizmann Institute และTel Aviv University เผยแพร่งานตีพิมพ์เรื่อง “Lumiere: A Space-Time Diffusion Model for Video Generation” หรือโมเดลสร้างวิดีโอจากข้อความแบบสมจริง

นักวิจัยให้ข้อมูลเพิ่มเติมเกี่ยวกับ Lumiere ที่เพิ่งเปิดตัวว่า กระบวนการสร้างสรรค์วิดีโอของโมเดลนี้มีความแตกต่างจากคู่แข่งในตลาด AI วิดีโอที่มีอยู่เดิม ไม่ว่าจะ Runway, Pika และ Stability AI ตรงที่สามารถสังเคราะห์วิดีโอแสดงภาพเคลื่อนไหวที่สมจริง หลากหลาย และสอดคล้องกัน ซึ่งถือเป็นความท้าทายสำคัญในวงการสังเคราะห์วิดีโอ หรือการสร้างสรรค์วิดีโอจาก AI ผ่านองค์ประกอบต่าง ๆ อย่างมาก

สารบัญ

Lumiere คืออะไร ทำอะไรได้บ้าง?
การทำงานของ Lumiere
ฟีเจอร์เพิ่มเติมของ Lumiere
จุดเด่นของ Lumiere สำหรับการสร้างสรรค์วิดีโอ คืออะไร
เปรียบเทียบประสิทธิภาพ Lumiere กับโมเดลสร้างวิดีโอ AI อื่น ๆ

Lumiere คืออะไร ทำอะไรได้บ้าง?

Lumiere คือ โมเดล Space-Time Diffusion ซึ่งเป็น AI ที่ช่วยในการสร้างสรรค์วิดีโอจากข้อความ ภาพนิ่ง ออกแบบมาเพื่อสังเคราะห์วิดีโอ ที่แสดงภาพเคลื่อนไหวที่สมจริง หลากหลาย และสอดคล้องกัน ซึ่งเป็นความท้าทายที่สำคัญในการสังเคราะห์วิดีโอด้วย AI เพื่อให้บรรลุจุดประสงค์นี้ ได้มีการใช้ Space-Time U-Net ที่สร้างระยะเวลาของวิดีโอทั้งหมดในคราวเดียว ผ่านการรันโมเดลเพียงรอบเดียว แตกต่างจากโมเดลวิดีโอที่มีอยู่เดิม ที่จะสังเคราะห์คีย์เฟรมที่อยู่ห่างไกลออกไปก่อน ตามด้วยTemporal super resolution ที่เป็นวิธีที่ทำให้ความสอดคล้องของเวลาโดยรวมทำได้ยาก

Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้! — Credit: Lumiere

การทำงานของ Lumiere

Lumiere จะทำงานโดยการปรับขนาดลดลงและขยายทั้งเชิงพื้นที่และเวลา และใช้ประโยชน์จากโมเดลการกระจายข้อความ(Space-Time Diffusion) เป็นภาพที่ผ่านการฝึกฝนไว้ล่วงหน้า ทำให้โมเดลสามารถสร้างวิดีโอความละเอียดต่ำ ที่มีอัตราเฟรมเต็มรูปแบบได้โดยตรง ผ่านการประมวลผลในหลายระดับพื้นที่และเวลา จึงแสดงผลลัพธ์การสร้างข้อความเป็นวิดีโอได้ในระดับสุดยอด ความสามารถที่แตกต่างนี้ แสดงให้เห็นว่าการออกแบบ Lumiere เอื้อต่อการสร้างเนื้อหาและแอปพลิเคชันการตัดต่อวิดีโอหลากหลายประเภท รวมถึงการเปลี่ยนภาพเป็นวิดีโอ การเติมเต็มวิดีโอ และการสร้างสรรค์วิดีโออย่างมีสไตล์’

Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้! — Credit: Lumiere

คำว่า Lumiere แปลว่า “แสงสว่าง” ซึ่งผู้ออกแบบน่าจะตั้งใจสื่อถึงความสามารถของโมเดลนี้ ในการสร้างวิดีโอที่สมจริงและมีสไตล์ ถ้าจะพูดถึงความสามารถของโมเดลนี้ให้เห็นเป็นภาพที่ชัดเจนขึ้น โดยหลักแล้ว Lumiere เป็นโมเดลการแพร่กระจายวิดีโอที่มีความสามารถดังนี้

สร้างวิดีโอจากข้อความ (Text-to-Video) วิธีการคือ ผู้ใช้สามารถป้อนคำสั่งหรืออธิบายถึงสิ่งที่ต้องการ (Prompt)เป็นภาษาธรรมดาที่ใช้เขียนทั่วไป เหมือนกับที่ป้อนคำสั่งใน ChatGPT หรือ Bard แล้วโมเดลก็จะสร้างวิดีโอที่ตรงตามคำอธิบายหรือคำสั่งของเรา
เปลี่ยนภาพนิ่งเป็นวิดีโอ (Image-to-Video) วิธีการคือ ผู้ใช้อัปโหลดภาพนิ่งลงไปแล้วตามด้วยคำสั่งโมเดลจะจัดการแปลงข้อมูลที่ใส่ลงไปทั้งหมดเป็นวิดีโอแบบไดนามิก

ฟีเจอร์เพิ่มเติมของ Lumiere

นอกจากสร้างวิดีโอจากข้อความ และเปลี่ยนภาพนิ่งเป็นวิดีโอ Lumiere ยังมีฟีเจอร์ที่เป็นลูกเล่นน่าสนใจเพิ่มเติมอีก เช่น

Inpainting ใส่สิ่งของเฉพาะบางสิ่งบางอย่างลงไปในวิดีโอด้วยคำสั่ง (Prompt)
Cinemagraph เพิ่มการเคลื่อนไหวเฉพาะส่วนใดส่วนหนึ่งของฉากในวิดีโอ
Stylized generation สร้างวิดีโอในสไตล์ที่ต้องการ เพียงแค่การใช้ภาพอ้างอิงเพียงภาพเดียว โดยเป็นการทำงานผ่านการปรับแต่งน้ำหนักโมเดล Text-to-Image

Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้! — Credit: Lumiere

แม้ว่าความสามารถทั้งหมด รวมถึงฟีเจอร์เพิ่มเติมต่าง ๆ นี้จะไม่ใช่ของใหม่ในวงการ Generative AI เพราะคู่แข่งที่ครองตลาดอย่าง Runway และ Pika เคยนำเสนอวิธีการเหล่านี้มาก่อนแล้ว แต่นักวิจัยอ้างว่า โมเดลที่มีอยู่ส่วนใหญ่จะจัดการกับมิติข้อมูลเวลาเพิ่มเติม (แทนสถานะในช่วงเวลา) ที่เกี่ยวข้องกับการสร้างวิดีโอ ด้วยการใช้วิธีแบบขั้นบันได โดยในขั้นแรก โมเดลพื้นฐานจะสร้างคีย์เฟรมที่ห่างไกลออกไปก่อน จากนั้น โมเดล TSR (Temporal Super-Resolution) ภายหลังจะสร้างข้อมูลที่ขาดหายระหว่างเฟรมเหล่านั้น ในส่วนที่ไม่ทับซ้อนกัน เรียกว่าเป็นการคีย์เฟรมแล้วตามด้วยการเติมเต็มช่วงเวลาทีละส่วน แม้ว่าวิธีนี้จะได้ผลลัพธ์ที่ดี แต่ก็ทำให้ความสอดคล้องในเรื่องของเวลาทำได้ยาก ส่งผลให้มักจะมีข้อจำกัดในแง่ของความยาววิดีโอ, คุณภาพของภาพโดยรวม และระดับความสมจริงของการเคลื่อนไหวที่ AIสร้างได้

จุดเด่นของ Lumiere สำหรับการสร้างสรรค์วิดีโอ คืออะไร

Lumiere แก้ไขปัญหาความสอดคล้องของเวลาได้

Lumiere โดดเด่นตรงที่สามารถแก้ไขปัญหาความสอดคล้องของเวลาได้ ด้วยการใช้สถาปัตยกรรม Space-Time U-Net ที่สร้างวิดีโอความยาวทั้งหมดเพียงครั้งเดียว ผ่านการประมวลผลเพียงรอบเดียว ทำให้ได้ภาพเคลื่อนไหวที่สมจริงและสอดคล้องกันมากขึ้น

เรียนรู้การสร้างวิดีโอความละเอียดต่ำโดยตรง

นักวิจัยระบุในบทความว่า “โมเดลของเราเรียนรู้การสร้างวิดีโอความละเอียดต่ำโดยตรง ด้วยอัตราเฟรมเต็มรูปแบบ ด้วยการใช้การลดขนาดและขยายขนาดทั้งเชิงพื้นที่และเวลา รวมถึงประโยชน์จากโมเดลการแพร่กระจายข้อความเป็นภาพที่ผ่านการฝึกฝนไว้ล่วงหน้า”

ได้รับการฝึกฝนบนชุดข้อมูลวิดีโอกว่า 30 ล้านรายการ

โมเดลวิดีโอ Lumiereได้รับการฝึกฝนบนชุดข้อมูลวิดีโอกว่า 30 ล้านรายการ พร้อมคำบรรยายประกอบ สามารถสร้างเฟรมได้ 80 เฟรม ที่ความเร็ว 16 เฟรมต่อวินาที อย่างไรก็ตาม แหล่งที่มาของข้อมูลชุดนี้ยังไม่ชัดเจนในขณะนี้

Lumiere คือ AI ล่าสุดที่สร้างวิดีโอจากข้อความ-ภาพนิ่งได้! — Credit: Lumiere

เปรียบเทียบประสิทธิภาพ Lumiere กับโมเดลสร้างวิดีโอ AI อื่น ๆ

นักวิจัยเปรียบเทียบ Lumiere กับคู่แข้งอื่น ๆ ในตลาดโมเดลสร้างวิดีโอ AI อย่าง Pika, Runway, Stability AI และ ImagenVideo พบว่า

โมเดลอื่น ๆ มักให้ภาพคุณภาพสูงแบบต่อเฟรม แต่การเคลื่อนไหวน้อยมาก ส่งผลให้ดูเหมือนภาพนิ่งเป็นช่วง ๆ
ImagenVideo มีการเคลื่อนไหวที่ดีกว่า แต่คุณภาพภาพยังตามหลัง Lumiere
Lumiere สามารถสร้างวิดีโอความยาว 5 วินาทีที่มีการเคลื่อนไหวมากขึ้น ขณะเดียวกันยังรักษาความสอดคล้องของเวลาและคุณภาพโดยรวมได้ดีกว่า
จากการสำรวจความคิดเห็น ผู้ใช้ชื่นชอบ Lumiere มากกว่าคู่แข่ง ในการสร้างวิดีโอจากข้อความและภาพ

จากข้อมูลรายละเอียดของ Lumiere ที่เปิดเผยออกมาในช่วงแรกนี้ ต้องยอมรับว่าได้แสดงให้เห็นถึงศักยภาพที่น่าประทับใจ จากความสามารถที่สร้างวิดีโอได้ยาวขึ้น มีการเคลื่อนไหวที่สมจริงมากขึ้น อย่างไรก็ตาม นี่ยังคงเป็นเพียงช่วงเริ่มต้นของโมเดล AI นี้ และยังไม่พร้อมให้ทดลองใช้งาน โดยบริษัทผู้พัฒนายังระบุว่า Lumiere มีข้อจำกัดบางประการที่ต้องแก้ไขก่อนนำไปใช้งานจริง แต่ก็น่าติดตามว่า Lumiere จะก้าวเข้ามาเปลี่ยนวงการสร้างวิดีโอ AI อย่างไรในอนาคต

บทความที่เกี่ยวข้อง: VideoPoet คืออะไร สร้างวิดีโอจากคำสั่ง Prompt และภาพถ่ายได้อย่างไร

Chumphon C.