VideoPoet คืออะไร สร้างวิดีโอจากคำสั่ง Prompt และภาพถ่ายได้อย่างไร

กุมภาพันธ์ 4, 2025
45 mins

VideoPoet คืออะไร สร้างวิดีโอจากคำสั่ง Prompt และภาพถ่ายได้อย่างไร

แค่การเปิดตัว ChatGPT หรือ Google Bard ก็สั่นสะเทือนไปในหลาย ๆ วงการแล้ว แต่แวดวง AI หรือปัญญาประดิษฐ์ยังไม่หยุดอยู่แค่นั้น ล่าสุดค่าย Google เปิดตัว VideoPoet ให้ได้ทำความรู้จักกันอีก บอกเลยว่าด้วยคุณสมบัติที่น่าทึ่งของมัน โลกของเราคงจะไม่เหมือนเดิม และพวกเราคงจะได้เห็นไอเดียสร้างสรรค์สุดล้ำ อย่างไม่มีข้อจำกัดอีกต่อไป

VideoPoet คืออะไร — Credit: Google Research

สารบัญ

VideoPoet คืออะไร
เบื้องหลังแนวคิดของ VideoPoet
VideoPoet สร้างสรรค์คลิปยาวและมีคุณภาพ
VideoPoet เครื่องมือสร้างวิดีโอแบบ All-in-One
VideoPoet สร้างมาเพื่อวิดีโอแนวตั้ง
การทำงานของ VideoPoet
VideoPoet กับการแก้ปัญหาที่เกิดกับวิดีโอที่สร้างขึ้นโดยโมเดล

VideoPoet prompt — Credit: Google Research

VideoPoet คืออะไร

VideoPoet เป็นโมเดลภาษาขนาดใหญ่ (LLM) ใหม่ล่าสุด ที่ออกแบบมาเพื่อสร้างวิดีโอจากข้อความเพียงอย่างเดียว โดยไม่จำเป็นต้องมีข้อมูลวิดีโอหรือภาพประกอบเพิ่มเติมแต่อย่างใด พัฒนาขึ้นโดยทีมนักวิจัย 31 คนจาก Google Research สามารถดูรายละเอียดเพิ่มเติมได้ที่ https://sites.research.google/videopoet/ แม้จะยังอยู่ในช่วงเริ่มต้นของการพัฒนา แต่ก็มีความสามารถมากชนิดที่ว่าสามารถช่วยให้คนธรรมดาอย่างเรา ๆ สร้างวิดีโอคอนเทนต์ที่สร้างสรรค์และน่าสนใจได้ โดยไม่ต้องมีความรู้หรือทักษะด้านวิดีโอใด ๆ เลย นอกจากนี้ยังสามารถใช้เพื่อสร้างวิดีโอการศึกษาและการฝึกอบรมได้อย่างมีประสิทธิภาพ

Credit: Google Research

เบื้องหลังแนวคิดของ VideoPoet

ทีม Google Research ได้บอกเล่าถึงแนวคิดในการสร้างสรรค์นวัตกรรมใหม่นี้ไว้ในเอกสารการวิจัยก่อนการตรวจสอบว่า โมเดลที่มีอยู่ส่วนใหญ่ใช้เทคนิค Diffusion-based ซึ่งได้รับการยอมรับว่าเป็นผู้ทำผลงานยอดเยี่ยมในด้านการสร้างวิดีโอ โดยโมเดลวิดีโอเหล่านี้มักเริ่มต้นด้วยโมเดลภาพที่ผ่านการฝึกฝนล่วงหน้า เช่น Stable Diffusion ที่สร้างภาพความละเอียดสูงสำหรับเฟรมแต่ละเฟรม จากนั้นจึงปรับแต่งโมเดลเพื่อปรับปรุงความสอดคล้องของเวลา across เฟรมวิดีโอ แต่สำหรับ VideoPoet แทนที่จะใช้โมเดล Diffusion ที่อิงจาก Stable Diffusion แหล่งกำเนิด AI สร้างภาพ/วิดีโอ ที่นิยมใช้กัน ทีม Google Research ตัดสินใจใช้ LLM ซึ่งเป็นรูปแบบโมเดล AI อีกประเภทหนึ่งที่ มักใช้สำหรับการสร้างข้อความและโค้ด เช่นเดียวกับ ChatGPT, Claude 2 หรือ Llama 2 แต่แทนที่จะฝึกให้สร้างข้อความและโค้ดอย่างที่เคย ทีม Google Research กลับฝึกให้มันสร้างวิดีโอขึ้นมาแทน ซึ่งนี่เองที่เป็นกุญแจสำคัญ

ทีม Google Research ทำการฝึกฝนล่วงหน้า (Pre-training) VideoPoet LLM อย่างหนักกับวิดีโอกว่า 270 ล้านรายการรวมถึงฝึกกับคู่ภาพข้อความมากกว่า 1 พันล้านรายการจากข้อมูลที่ได้จากอินเทอร์เน็ตสาธารณะและแหล่งอื่น ๆ โดยเฉพาะการแปลงข้อมูลนั้นเป็นข้อความฝังภาพ, โทเค็นภาพ (visual tokens) และโทเค็นเสียง (audio tokens) โดยโมเดล AI นี้จะถูกกำหนดเงื่อนไข (conditioned) เอาไว้

ซี่งผลลัพธ์ออกมาค่อนข้างน่าทึ่งมาก เมื่อเปรียบเทียบกับโมเดลสร้างวิดีโอระดับแนวหน้าสำหรับผู้บริโภคบางรุ่น เช่น Runway , Lumiere และ Pika ซึ่งเป็นการลงทุนของ Google เหมือนกัน

VideoPoet สร้างสรรค์คลิปยาวและมีคุณภาพ

ในการสร้างคลิปด้วย AI บ่อยครั้งที่จะเกิดปัญหาหรือข้อผิดพลาด แต่กับ VideoPoet เครื่องมือใหม่จาก google นี้ ทีมผู้สร้าง Google Research ตั้งข้อสังเกตว่าวิธีการสร้างวิดีโอ LLM ของพวกเขาอาจอนุญาตให้คลิปยาวขึ้น คุณภาพสูงขึ้นได้ อีกทั้งยังสามารถขจัดข้อจำกัดและปัญหาบางอย่างที่เกิดกับ AI การสร้างวิดีโอแบบ diffusion ในปัจจุบัน ที่การเคลื่อนไหวของบุคคลในวิดีโอมีแนวโน้มที่จะเสียหายหรือเกิดข้อผิดพลาดหลังจากใช้เฟรมเพียงไม่กี่เฟรม

Dan Kondratyuk และ David Ross 2 คนในทีมวิจัย เขียนไว้ในบล็อกโพสต์ของ Google Research ที่ประกาศผลงานของพวกเขาว่า หนึ่งในปัญหาหรืออุปสรรคของการสร้างวิดีโอคือความสามารถในการสร้างการเคลื่อนไหวขนาดใหญ่ที่ประสานกัน ในหลายกรณี แม้กระทั่งโมเดลชั้นนำที่มีอยู่ในปัจจุบันก็ยังสร้างการเคลื่อนไหวขนาดเล็กได้เท่านั้น เช่น การเดินหรือการส่ายหัวไปมา แต่เมื่อมีสร้างการเคลื่อนไหวขนาดใหญ่ขึ้น อย่างเช่น ตัวละครวิ่งหรือกระโดด จะปรากฏข้อผิดพลาดที่สังเกตเห็นได้ชัดเจน ไม่ว่าจะ วัตถุที่บิดเบี้ยวหรือการเคลื่อนไหวที่ไม่เป็นธรรมชาติ

VideoPoet พยายามแก้ไขปัญหานี้โดยใช้เทคนิคการเรียนรู้ของเครื่องใหม่ ๆ เพื่อสร้างวิดีโอที่มีการเคลื่อนไหวขนาดใหญ่ที่สมจริงยิ่งขึ้น ทำให้สามารถสร้างการเคลื่อนไหวที่ใหญ่ขึ้นและสม่ำเสมอมากขึ้น ในวิดีโอที่ยาวขึ้น 16 เฟรม อ้างอิงจากตัวอย่างที่นักวิจัยโพสต์ออนไลน์ นอกจากนี้ยังรองรับความสามารถที่หลากหลาย ตั้งแต่การจำลองการเคลื่อนไหวของกล้องที่แตกต่างกัน สไตล์ภาพและสุนทรียะที่แตกต่างกัน ไปจนถึงการสร้างเสียงใหม่ให้ตรงกับคลิปวิดีโอที่กำหนด ด้วยการป้อนข้อมูลต่าง ๆ ทั้งข้อความ รูปภาพ และวิดีโอ รวมถึงข้อความคำสั่ง (prompt)

VideoPoet เครื่องมือสร้างวิดีโอแบบ All-in-One

VideoPoet เป็นโมเดลภาษาขนาดใหญ่ (LLM) ที่สามารถสร้างวิดีโอคุณภาพสูงได้หลากหลายรูปแบบ โดยไม่ต้องใช้เครื่องมือเฉพาะทางอื่น ๆ ร่วมด้วย นับเป็นโซลูชันแบบครบวงจรสำหรับการสร้างวิดีโอที่สะดวกและรวดเร็ว โดยเฉพาะสำหรับผู้ที่ไม่มีความเชี่ยวชาญในการสร้างสรรค์วิดีโอ

ผลการสำรวจจากทีมวิจัยของ Google ยังยืนยันว่าผู้ชมชื่นชอบ VideoPoet มากกว่าคลิปวิดีโอที่สร้างโดยวิธีการอื่น ๆ โดยทีมวิจัยได้นำเสนอคลิปวิดีโอที่สร้างโดย VideoPoet เปรียบเทียบคู่ขนานกับคลิปที่สร้างโดยโมเดลอื่น ๆ เช่น Source-1, VideoCrafter และ Phenaki ซึ่งผลลัพธ์จากการสอบถามผู้ชมคือส่วนใหญ่ชื่นชอบวิดีโอจาก VideoPoet มากกว่า

Google สรุปผลการวิจัยในครั้งนี้ว่า โดยเฉลี่ย ผู้คนเลือกตัวอย่างจาก VideoPoet 24-35% ว่าตรงตามคำสั่งดีกว่าโมเดลมินิ 8-11% นอกจากนี้ ผู้ประเมินยังชื่นชอบตัวอย่างจาก VideoPoet 41-54% สำหรับการเคลื่อนไหวที่น่าสนใจมากกว่า 11-21% ของโมเดลอื่น ๆ

VideoPoet สร้างมาเพื่อวิดีโอแนวตั้ง

Google Research ได้ปรับแต่ง VideoPoet เพื่อสร้างวิดีโอในแนวตั้งเป็นค่าเริ่มต้น เพื่อตอบสนองตลาดวิดีโอมือถือที่ได้รับความนิยมไม่ว่าจะจาก Snap หรือ TikTok แต่ในอนาคต Google Research วางแผนขยายความสามารถของ VideoPoet เพื่อรองรับการสร้างแบบ “any-to-any” เช่น การแปลงข้อความเป็นเสียงและเสียงเป็นวิดีโอ เพื่อผลักดันขอบเขตของความเป็นไปได้ในการสร้างวิดีโอและเสียง

Credit: Google Research

การทำงานของ VideoPoet

VideoPoet เป็นวิธีการสร้างแบบจำลองที่เรียบง่าย ที่สามารถแปลงโมเดลภาษาแบบ autoregressive หรือโมเดลภาษาขนาดใหญ่ (LLM) ให้เป็นตัวสร้างวิดีโอคุณภาพสูง โดยประกอบด้วยส่วนประกอบหลาย ๆ ส่วน ดังนี้

วิดีโอ tokenizer ที่ได้รับการฝึกฝนล่วงหน้า MAGVIT V2 และ SoundStream audio tokenizer ที่จะแปลงรูปภาพ วิดีโอ และคลิปเสียงที่มีความยาวแปรผัน ให้เป็นลำดับของรหัสแบบแยกส่วนในพจนานุกรมแบบรวมกัน รหัสเหล่านี้เข้ากันได้กับโมเดลภาษาแบบข้อความ ซึ่งช่วยให้สามารถรวมเข้ากับโหมดอื่น ๆ เช่น ข้อความ
โมเดลภาษาแบบ autoregressive เรียนรู้ในโหมดวิดีโอ รูปภาพ เสียง และข้อความ เพื่อคาดการณ์โทเค็นวิดีโอหรือเสียงถัดไปในลำดับ
ส่วนผสมของเป้าหมายการเรียนรู้แบบสร้างหลายมิติ ได้รับการแนะนำลงในกรอบการฝึกอบรม LLM รวมถึงการแปลงข้อความเป็นวิดีโอ การแปลงข้อความเป็นภาพ การแปลงภาพเป็นวิดีโอ การต่อคลิปวิดีโอ การเติมแต่งและตัดแต่งวิดีโอ การแปลงสไตล์วิดีโอ และการแปลงวิดีโอเป็นเสียง โดยภารกิจเหล่านี้ยังสามารถประกอบเข้าด้วยกัน เพื่อเพิ่มขีดความสามารถแบบ zero-shot เช่น การแปลงข้อความเป็นเสียง

จากสูตรง่ายๆ นี้แสดงให้เห็นว่า โมเดลภาษาสามารถสังเคราะห์และแก้ไขวิดีโอ ด้วยระดับความสม่ำเสมอของเวลาสูง และ VideoPoet ก็แสดงให้เห็นถึงการสร้างวิดีโอระดับคุณภาพ โดยเฉพาะอย่างยิ่งในการสร้างความเคลื่อนไหวที่หลากหลาย น่าสนใจ และมีคุณภาพสูง

ภาพรวมของโมเดล VideoPoet คือสามารถทำงานหลายอย่างบน Input และOutput ที่เน้นวิดีโอหลากหลาย LLM สามารถรับข้อความเป็นInputได้เพื่อแนะนำการสร้างสำหรับงานแปลงข้อความเป็นวิดีโอ ภาพเป็นวิดีโอ การปรับแต่ง และการตัดแต่ง

VideoPoet กับการแก้ปัญหาที่เกิดกับวิดีโอที่สร้างขึ้นโดยโมเดล

โมเดลการสร้างวิดีโอในปัจจุบัน มักประสบปัญหาในการสร้างการเคลื่อนไหวขนาดใหญ่ที่สมจริง นอกจากนั้นยังมีปัญหาหลัก ๆ อีก 3 ประการคือ

ประสิทธิภาพ การสร้างและประมวลผลวิดีโอจำเป็นต้องใช้ทรัพยากรการคำนวณจำนวนมาก ซึ่งอาจจำกัดการเข้าถึงวิดีโอสำหรับผู้ใช้ที่มีอุปกรณ์น้อยกว่า
ความแม่นยำ โมเดลการสร้างวิดีโอปัจจุบันอาจสร้างวิดีโอที่ผิดพลาดหรือมีคุณภาพต่ำ
ความสร้างสรรค์ โมเดลการสร้างวิดีโอปัจจุบันอาจจำกัดความสามารถในการสร้างวิดีโอที่สร้างสรรค์และไม่เหมือนใคร

ในเรื่องของประสิทธิภาภ VideoPoet พยายามแก้ไขปัญหาโดยการใช้ LLM เพื่อลดความต้องการทรัพยากรการคำนวณ LLM เป็นโมเดลภาษาขนาดใหญ่ ที่ได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลขนาดใหญ่ของข้อความและโค้ด LLM สามารถเรียนรู้ที่จะสร้างวิดีโอโดยใช้ทรัพยากรการคำนวณน้อยกว่าโมเดลการสร้างวิดีโอแบบเดิม

นอกจากนั้น VideoPoet ยังใช้เทคนิคการเรียนรู้แบบจำลองเชิงลึก และเรียนรู้จากตัวอย่างวิดีโอที่มีอยู่ เพื่อปรับปรุงความแม่นยำของการสร้างวิดีโอ สุดท้าย VideoPoet ใช้เทคนิคการสร้างเนื้อหาแบบจำลอง เพื่อเพิ่มขีดความสามารถด้านความคิดสร้างสรรค์ โดยการสร้างเนื้อหาแบบจำลอง เป็นกระบวนการสร้างเนื้อหาใหม่ ที่ใช้โมเดลการเรียนรู้ของเครื่อง ทำให้สามารถสร้างวิดีโอที่สร้างสรรค์และไม่เหมือนใครได้อย่างมีประสิทธิภาพมากขึ้น

ความสามารถขนาดนี้ต้องบอกว่าเหนือจินตนาการไปหลายขั้น และหลาย ๆ คนคงอยากจะทดลองสร้างสรรค์วิดีโอด้วยตัวเองผ่านVideoPoet ดูสักครั้ง กระซิบว่าอีกหน่อย เพราะข้อจำกัดเดียวที่เห็นได้ชัดของ VideoPoet ในตอนนี้คือ ยังไม่เปิดให้ใช้งานแบบสาธารณะ คงต้องรออย่างใจจดใจจ่อเพื่อดูว่า เมื่อเปิดให้ใช้งานแบบเต็มรูปแบบแล้ว VideoPoet จะเข้ามาท้าทายเครื่องมือสร้างวิดีโออื่น ๆ ในตลาดได้อย่างไรบ้าง

บทความที่เกี่ยวข้อง: Google Gemini คืออะไร ดีกว่า ChatGPT จริงหรือ?

Chumphon C.