Google Gemini คืออะไร ดีกว่า ChatGPT จริงหรือ?
นับตั้งแต่การเปิดตัวของ ChatGPT จากค่าย OpenAI ที่สร้างความฮือฮา หลายคนก็พุ่งสายตาไปที่ Google ว่าจะมีอะไรเด็ด ๆ ออกมาสู้บ้าง แล้ววันที่ 7 ธันวาคม 2023 ที่ผ่านมา Gemini ก็เปิดตัวอย่างเป็นทางการ โดย Google ระบุว่าเป็นโมเดล AI ที่ทรงพลังที่สุดเท่าที่เคยมีมา! Gemini คืออะไร ทำอะไรได้บ้าง จะสู้กับ ChatGPT ได้จริงหรือ? มาทำความรู้จักกับ Gemini จาก Google กัน
สารบัญ
กำเนิด Gemini โมเดล AI ที่ Google บอกว่าดีที่สุด
ต้องบอกว่า Google พัฒนา AI ของตัวเองมาหลายปีแล้ว ซึ่งหลังจาก ChatGPT เปิดตัวเราก็ได้เห็น Bard รีบเปิดตัวตามมา แต่ความที่ยังอยู่ในเวอร์ชัน Beta เลยทำให้ได้รับเสียงวิจารณ์ค่อนข้างเยอะ เพราะตอบคำถามง่าย ๆ ก็ยังผิด ทำเอาเสียหน้าไปไม่น้อย
แต่แล้ววันที่ 7 ธันวาคม Google กลับมาท้าชนกับ ChatGPT อีกครั้งด้วย Gemini (เจมินาย) โดยประกาศอย่างภาคภูมิใจว่ามีประสิทธิภาพเหนือกว่า GPT-3.5 แทบทุกด้าน ไม่ว่าจะคณิตศาสตร์ การเขียนโค้ด การวิเคราะห์ โดยวัดจากผลคะแนนการทดสอบต่าง ๆ ที่ได้ผลลัพธ์ออกมามากกว่า GenAI ที่เคยมีมาทุกตัว! แต่ถึงอย่างนั้นเมื่อมีคนถามถึงประสิทธิภาพของ Gemini กับ ChatGPT ผู้บริหาร Google ก็ยังเลี่ยงที่จะพูดแบบฟันธงว่า Gemini มีประสิทธิภาพเหนือกว่า GPT-4
Gemini คืออะไร?
Gemini คือ โมเดลปัญญาประดิษฐ์ตัวใหม่หรือ AI จาก Google พัฒนาต่อยอดขึ้นมาจากเทคโนโลยีสมัย AlphaGO ที่เคยโค่นล้มเซียนหมากล้อมเมื่อปี 2016 โดยทีมของ DeepMind บริษัทที่พัฒนาเกี่ยวกับ AI ภายใต้ Google ซึ่งประธานบริหารบริษัท Demis Hassabis ให้ข้อมูลเกี่ยวกับ Gemini ว่าเป็นการผสมผสานจุดแข็งทั้งของระบบ AlphaGo และ LLM (Large Language Model) หรือโมเดลประมวลภาษาขนาดใหญ่ AI ที่มีความสามารถด้านการสื่อสารและภาษาเข้าไว้ด้วยกัน แต่จะเพิ่มความสามารถด้านการตัดสินใจและการคิดแบบเป็นเหตุเป็นผลเข้ามา ซึ่งเป็นคุณสมบัติที่เหนือกว่า ChatGPT จะทำได้
ความสามารถของ Google Gemini ไม่เพียงแต่ทำความเข้าใจกับข้อความได้เท่านั้น แต่ความที่เป็น AI แบบ Multimodal ทำให้สามารถเข้าใจแม้กระทั่งรูปภาพ วิดีโอ และเสียงด้วย จึงทำงานที่ซับซ้อนในด้านคณิตศาสตร์ ฟิสิกส์ และโดเมนอื่น ๆ ได้อย่างมีประสิทธิภาพ เช่นเดียวกันการทำความเข้าใจและสร้างโค้ดคุณภาพสูงในภาษาการเขียนโปรแกรมที่หลากหลาย Demis Hassabis อธิบายเพิ่มเติมว่า
“เป็นผลมาจากความพยายามร่วมกันครั้งใหญ่ในทีม Google และ Google Research เราสร้าง Gemini ตั้งแต่ต้นจนจบเพื่อให้เป็นได้หลายรูปแบบ หมายถึงสามารถสรุปและทำความเข้าใจ ดำเนินการ และรวบรวมข้อมูลประเภทต่าง ๆ เข้าไว้ด้วยกัน”
ด้วยคุณสมบัติความเป็น Multimodal ทำให้ Gemini เป็น AI ที่สามารถรองรับข้อมูลและรูปแบบคำสั่งหลายประเภท เพื่อการใช้งานที่หลากหลายในเวลาเดียวกัน เช่น ข้อความอักษร ภาพวิดีโอ เสียง และโค้ด โดย Gemini ถูกเทรนด้วยข้อมูลจากอินเทอร์เน็ตแบบ Real-time Data ที่มีการอัปเดตอย่างสม่ำเสมอบนโครงสร้างพื้นฐาน Tensor Processing Units (TPU) V4 และ V5e ที่ออกแบบในองค์กรของ Google
ทีมงานของ google DeepMind สร้างสรรค์โมเดลนี้ด้วยความเชื่อที่ว่า หากสามารถสร้างเครื่องมือที่ชาญฉลาดมากขึ้น จะสามารถนำมาใช้ประโยชน์ให้กับมนุษยชาติได้อย่างมหาศาล พวกเขาต้องการสร้าง AI รุ่นใหม่ที่ได้รับแรงบันดาลใจจากวิธีที่คนทำความเข้าใจและมีปฏิสัมพันธ์กับโลก พวกเขาอยากได้ AI ที่เป็นซอฟต์แวร์ที่ฉลาดและมีประโยชน์มากขึ้นยิ่งกว่าเดิม ให้เป็นเสมือนผู้ช่วยที่คล้ายกับผู้เชี่ยวชาญในทางใดทางหนึ่ง สามารถให้ความช่วยเหลืออย่างมีประสิทธิภาพและที่สำคัญที่สุดคือใช้งานได้ง่าย
และ Gemini คือโมเดล AI ที่มีความสามารถใกล้เคียงสิ่งที่พวกเขาคาดหวังมากที่สุดเท่าที่เคยสร้างมา พวกเขาออกแบบให้ Gemini เป็นโมเดลหลายโหมดตั้งแต่เริ่มต้น ทั้งยังได้รับการฝึกก่อนด้วยโหมดที่แตกต่างกัน จากนั้นปรับแต่งด้วยข้อมูลหลากหลายโหมดเพิ่มเติม เพื่อปรับปรุงให้มีประสิทธิภาพสูงสุด ทั้งหมดทั้งมวลนี้เป็นเหตุผลให้ Gemini จาก Google สามารถทำความเข้าใจ มีเหตุผลกับการป้อนคำสั่งทุกรูปแบบอย่างราบรื่น ความสามารถของมันดีกว่าโมเดลรูปแบบอื่น ๆ เกือบทุกด้าน
ความสามารถหลัก ๆ ของ Gemini
- ความสามารถในการประมวลผลภาษาที่เป็นธรรมชาติสำหรับงานต่าง ๆ เช่น การแปล การสรุป และบทสนทนา
- ความสามารถการคิดทางคณิตศาสตร์และการแก้ปัญหา
- ความสามารถในการสร้างรหัสและเอกสาร
- ความสามารถในการทำความเข้าใจเกี่ยวกับภาพ เสียง และวิดีโอ
- ความสามารถในการทำงานหลายอย่างพร้อมกันในโดเมนที่แตกต่างกัน
Gemini มีความสามารถเหนือ AI รุ่นอื่น ๆ จริงหรือไม่?
ในการทดสอบความเข้าใจภาษา การคิดทางคณิตศาสตร์ และการเขียนโค้ด Gemini Ultra มีประสิทธิภาพเหนือกว่ารุ่นต่าง ๆ เช่น ChatGPT-4 ที่น่าสนใจคือเป็นโมเดลแรกที่มีประสิทธิภาพเหนือกว่าประสิทธิภาพระดับมนุษย์ในการทดสอบ Massive Multitask Language หรือความเข้าใจ (MMLU) โดยมีความแม่นยำมากกว่า 90% ทีเดียว
ด้วยผลคะแนน 90% ที่ได้จากการทดสอบ Gemini Ultra ทำให้เป็นโมเดลแรกที่มีประสิทธิภาพมากกว่ามนุษย์ผู้ที่ได้ชื่อว่าเชี่ยวชาญใน MMLU หรือการเข้าใจภาษาในงานที่หลากหลาย ที่เป็นการผสมผสานศาสตร์ที่มากกว่า 57 หัวข้อ เช่น คณิตศาสตร์, ฟิสิกส์, ประวัติศาสตร์, กฎหมาย, แพทย์ศาสตร์ และที่เกี่ยวข้องกับจรรยาบรรณ ซึ่งเป็นการทดสอบทั้งด้านความรู้เฉพาะทางโลกและความสามารถในการแก้ไขปัญหา
ในการทดสอบทางวิชาการเกี่ยวกับการศึกษาแบบจำลองภาษาขนาดใหญ่ 32 ครั้ง Gemini สามารถทำได้ดีกว่า Chat-4 อยู่ 30 กรณี แสดงให้เห็นว่าความสามารถของโมเดล AI ใหม่จาก Google นี้เหนือชั้นกว่าคู่แข่งไม่น้อย
ความแตกต่างของ Gemini กับ AI รุ่นอื่น ๆ
Gemini เป็นหนึ่งในโมเดล AI ที่ใหญ่ที่สุดและทันสมัยที่สุดในปัจจุบัน เมื่อเปรียบเทียบกับแชตบอท AI รุ่นยอดนิยมอื่น ๆ Gemini จะมีจุดเด่นที่มีฟีเจอร์หลายรูปแบบของตัวเอง ขณะที่โมเดล AI อื่น ๆ อย่างเช่น ChatGPT-4 ต้องอาศัยปลั๊กอินและการผสานรวม เพื่อให้เกิดเป็นหลายรูปแบบอย่างแท้จริง
ที่แตกต่างที่สุดเห็นจะเป็นการที่ Gemini มีความสามารถในการวิเคราะห์ความเป็นเหตุเป็นผล มีกระบวนการคิดอย่างรอบคอบก่อนที่จะตอบคำถามยาก ๆ ซึ่งจะสร้างประสบการณ์ที่ประทับใจตั้งแต่ครั้งแรกที่ได้ใช้งาน
การทำความเข้าใจข้อมูลที่ซับซ้อนก็เป็นสิ่งที่สร้างความแตกต่างและช่วยงานได้อย่างมากมาย Gemini ถูกฝึกฝนให้รู้จักและทำความเข้าใจข้อความ, ภาพ, เสียง และอื่น ๆ พร้อมกัน ทำให้มันมีความเข้าใจข้อมูลที่ละเอียดอ่อนมากขึ้น สามารถตอบคำถามที่เกี่ยวข้องกับหัวข้อที่ซับซ้อนได้ดียิ่งขึ้น และสามารถช่วยในการทำความเข้าใจข้อมูลที่ซับซ้อนทางการเขียนและทางกายภาพได้อย่างมีประสิทธิภาพ ทำให้สามารถเฉพาะเจาะจงข้อมูลความรู้จากข้อมูลปริมาณมหาศาล นำเสนอข้อมูลจากหลักฐานเอกสารที่มีเป็นล้าน ๆ ผ่านการอ่าน, การกรอง และทำความเข้าใจข้อมูล ด้วยความรวดเร็วไม่ว่าจะเป็นเรื่องที่เกี่ยวกับวิทยาศาสตร์ไปจนถึงการเงิน
นอกจากนั้นถ้าดูจาก Gemini Ultra โมเดลที่ใหญ่ที่สุดและทันสมัยที่สุด คะแนน 59.4% จาก new MMMU benchmark ที่ประกอบไปด้วยงานที่มีหลายโหมดในโดเมนที่แตกต่างและต้องการการให้เหตุผลที่ถูกต้อง Gemini Ultra มีประสิทธิภาพมากกว่าโมเดลที่ทันสมัยก่อนหน้าอย่างมาก เนื่องจากไม่ต้องมีระบบ OCR (Object Character Recognition) มาช่วยในการแยกตัวอักษรจากรูปภาพ เพื่อทำการประมวลผลเพิ่มเติม ซึ่งบ่งบอกถึงความสามารถในการให้เหตุผลที่ซับซ้อนมากขึ้นของ Gemini
อีกอย่างที่ต้องพูดถึงคือความยืดหยุ่นในการทำงาน ซึ่ง Google ยืนยันว่า Gemini คือโมเดลที่ยืดหยุ่นที่สุดที่พวกเขาเคยมี สามารถทำงานอย่างมีประสิทธิภาพได้บนทุกอย่าง ตั้งแต่ศูนย์ข้อมูลขนาดใหญ่ของ Google จนถึงอุปกรณ์มือถือขนาดเล็ก ซึ่งเมื่อนำไปใช้งานจะช่วยเสริมสร้างวิธีการที่นักพัฒนาและลูกค้าทางธุรกิจจะสร้างสรรค์ผ่าน AI ได้อย่างมีประสิทธิภาพ
Gemini มีกี่เวอร์ชัน?
ทีม Google สร้างสรรค์ให้ Gemini เป็นโมเดลที่มีความยืดหยุ่น สามารถทำงานได้บนอุปกรณ์ทุกชนิด ตั้งแต่ศูนย์ข้อมูลของ Google ไปจนถึงอุปกรณ์มือถือ เพื่อให้ปรับเปลี่ยนได้ตามอุปกรณ์ที่หลากหลายในเบื้องต้นนี้ Gemini จึงมี 3 เวอร์ชันด้วยกัน คือ Gemini Ultra, Gemini Pro และ Gemini Nano
Gemini Ultra
เป็นโมเดลที่ใหญ่ที่สุด มีความสามารถมากที่สุด สำหรับงานที่มีความซับซ้อนสูง รองรับข้อมูล 1T-2M พารามิเตอร์ ซึ่งทาง Google อธิบายถึงเวอร์ชันนี้ว่าเนื่องจากเป็นเวอร์ชันที่ใหญ่ที่สุดและทรงพลังที่สุด Gemini Ultra จึงได้รับพารามิเตอร์มากกว่า 1 ล้านล้านพารามิเตอร์ โดยจะตั้งอยู่ในศูนย์ข้อมูล Ultra โดยได้รับการดัดแปลงสำหรับการใช้งานในองค์กรและออกแบบมาเพื่อการทำงานที่ซับซ้อนมาก ๆ เป็นเวอร์ชันที่ Google วางแผนจะเผยแพร่หลังสิ้นสุดการทดสอบ ทำให้ขณะนี้ยังไม่พร้อมใช้งาน
Gemini Pro
โมเดลขนาดรองลงมาสำหรับการปรับขนาดในงานที่หลากหลาย มีพารามิเตอร์ประมาณ 100 พันล้านพารามิเตอร์ ออกแบบมาเพื่อทำงานร่วมกับ Chatbot Bard AI เวอร์ชันล่าสุด ใช้เวลาในการตอบสนองที่รวดเร็วและสามารถเข้าใจคำถามที่ซับซ้อนได้ เป็นแกนหลักของ AI การสนทนาของ Bard Pro จะพร้อมใช้งานผ่าน Google Cloud
Gemini Nano
โมเดลที่ออกแบบมาเพื่อการใช้งานบนสมาร์ทโฟนโดยเฉพาะ Google Pixel 8 มีพารามิเตอร์ประมาณ 6 พันล้านพารามิเตอร์ รองรับการทำงานที่ต้องการการประมวลผลที่มีประสิทธิภาพ โดยไม่ต้องเชื่อมต่อกับเซิร์ฟเวอร์ภายนอก เช่น การแนะนำคำตอบในโปรแกรมแชตหรือการสรุปข้อความ ทั้งนี้ผู้ใช้ Google Pixel 8 จะได้ Gemini Nano รองรับการสรุปการอัดเสียงหรือใช้ช่วยในการตอบข้อความก่อน
เราจะเข้าถึงบริการของ Gemini ได้อย่างไร?
ข่าวดีคือเวอร์ชัน Gemini Pro และ Gemini Nano พร้อมใช้งานแล้วสำหรับผลิตภัณฑ์ของ Google เช่น สมาร์ทโฟน Google Pixel 8 และแชตบอท Bard และ Google ยังวางแผนที่จะรวมโมเดลใหม่นี้เข้ากับเครื่องมือค้นหา, การโฆษณา, บริการGmail, เบราวเซอร์ Chrome และบริการอื่น ๆ
สำหรับ Bard ตั้งแต่นี้เป็นต้นไปจะใช้เวอร์ชันที่ถูกปรับแต่งอย่างละเอียดของ Gemini Pro ในการให้เหตุผล, วางแผน, ทำความเข้าใจและอื่น ๆ ซึ่งถือเป็นการอัปเกรดครั้งใหญ่ของ Bard ตั้งแต่วางตลาดมา ทำให้สามารถให้บริการในภาษาอังกฤษกว่า 170 ประเทศ โดยยังมีแผนที่จะขยายไปโหมดต่าง ๆ รวมถึงรองรับภาษาและสถานที่ใหม่ ๆ เพิ่มเติมในอนาคต
ส่วน Pixel 8 Pro ถือเป็นสมาร์ทโฟนตัวแรกที่ออกแบบมาเพื่อทำงานร่วมกับ Gemini Nano โดยเฉพาะ ทำให้มีคุณสมบัติใหม่เพิ่มเติมเข้ามา เช่น Summarize ในแอป Recorder และการตอบสนองแบบอัจฉริยะใน Gboard
ในเดือนถัดไป Gemini ก็จะมีให้บริการในผลิตภัณฑ์อื่น ๆ เพิ่มเติม เช่น Search, Ads, Chrome และ Duet AI โดยตอนนี้ Gemini มีทดลองใช้ใน Search อยู่แล้ว ซึ่งก็ส่งผลให้ Search Generative Experience (SGE) เร็วขึ้น เพราะสามารถลดความล่าช้าในภาษาอังกฤษได้ถึง 40%
Google เปิดให้ใช้งาน Gemini 13 ธันวาคม 2566
สำหรับผู้ที่สนใจอยากใช้งาน Gemini ทาง Google จะดีเดย์ให้ใช้กันได้ใน วันที่ 13 ธันวาคม 2023 เป็นต้นไป โดยนักพัฒนาและลูกค้าองค์กรสามารถเข้าถึง Gemini Pro ผ่านทาง Gemini API ใน Google AI Studio หรือ Google Cloud Vertex AI
ทั้งนี้ Google AI Studio เป็นเครื่องมือที่ใช้ได้ฟรีและเป็นเว็บเบสเพื่อสร้างต้นแบบและเริ่มต้นแอปพลิเคชันได้อย่างรวดเร็วด้วย API Key เมื่อถึงเวลาสำหรับแพลตฟอร์ม AI ส่วน Vertex AI จะช่วยให้สามารถปรับแต่ง Gemini ได้ พร้อมกับมีการควบคุมข้อมูลอย่างเต็มรูปแบบ ทำให้ได้รับประโยชน์จากคุณสมบัติที่จะเพิ่มเติมเข้ามาใน Google Cloud ซึ่งจะช่วยเรื่องความปลอดภัยขององค์กร, ความเป็นส่วนตัว รวมถึงการบริหารข้อมูลที่เป็นไปตามกฎระเบียบ
นักพัฒนาที่ใช้งานผ่าน Android ก็จะสามารถเข้าถึงเวอร์ชัน Gemini Nano ผ่านทาง AICore ที่จะเปิดให้ใช้งานในช่วงตัวอย่างก่อนกำหนดด้วยเช่นกัน โดยสามารถใช้ได้ใน Android14
Gemini จะเป็นคู่แข่งที่น่ากลัวสำหรับ ChatGPT หรือไม่คุณต้องไปหาคำตอบเอง แต่ชาว Google ยืนยันว่านี่จะเป็นการเริ่มต้นยุคใหม่ที่ Google และพวกเขายังไม่หยุดแค่นี้ เพราะกำลังทำงานกันอย่างหนักเพื่อขยายความสามารถของ Gemini ไปสู่เวอร์ชันใหม่ ๆ ที่จะเกิดขึ้นในอนาคต รวมถึงพัฒนาในการวางแผนหน่วยความจำ เพิ่มบริบทสำหรับการประมวลผลข้อมูล เพื่อให้ได้การตอบสนองที่ดีขึ้นไปอีก และนี่จะเป็นการสร้างความเปลี่ยนแปลงในวิธีการทำงานและการใช้ชีวิตของคนนับพันล้านคนทั่วโลกอย่างแน่นอน
บทความที่เกี่ยวข้อง: ChatGPT คืออะไร พร้อมสอนวิธีเขียนคำสั่ง Prompt แบบละเอียด