
ตอนงาน Google I/O Google ได้ประกาศว่า Google จะ Built in Gemini มาบน Google Chrome หลายๆคนก็คงคิดแต่ว่าโอเค Google Chrome ก็คงจะมีฟีเจอร์ AI ที่เหมือนแบบสามารถใช้บน Google Chrome ได้เรียกใช้ได้ซึ่งก็จริง ณ เวลานี้เนี่ยถ้าเราพิมพ์ในช่อง address bar ใน Chrome ว่า @gemini เราก็สามารถคุยกับ Gemini บนบน Chrome ได้เลยโดยที่ไม่ต้องเข้าเว็บแต่ก็ยังเป็นวิธีแบบที่ลิงค์ไปหาเว็บอยู่ดี
วันนี้เนี่ยเรามี Concept ที่เรียกว่า On Device AI หรือ AI ที่ทำการ Built in ตัวโมเดลลงมาไว้ในแพลตฟอร์มเลยซึ่งแพลตฟอร์มของเว็บก็คือตัว Browser ซึ่ง Concept ง่ายๆก็คือ Google Bundle Gemini Nano มาไว้บน Google Chrome เพื่อให้นักพัฒนาสามารถเรียกใช้ Gemini Nano ได้โดยที่ไม่ต้องขอผ่าน API คำถามคือแล้วมันจะดียังไงทำไมไม่ Call ผ่าน API อย่างแรกคือเมื่อเราขอผ่าน API เนี่ยเราก็จะต้องมีเรียกว่าเวลาที่เรียก API ไปแล้วก็ได้รับผลกลับมาซึ่งเวลาตรงนี้มันค่อนข้างใช้เวลานานมันเลยทำให้ Use Case บางอย่างไม่สามารถใช้งานได้ อาจจะเป็น Live Translation หรือ Sentiment Analysis แต่การ Built in Model ลงมาใน Browser เลยทำให้เราสามารถที่จะปลดล็อคทำ Use Case เหล่านี้ได้เลย อย่างที่สองคือคนทุกคนก็รู้ดีว่าพวก LLM Model เนี่ยราคาสูง การเอามาทำงานเล็กๆก็จะหาจตุดคตุ้มทุนยากเพราะฉะนั้นแล้ว การที่มี Model ฟรีให้เราเรียกใช้ทำงานเล็กๆได้ ก็เป็นเรื่องที่ช่วย Developer ได้ง่ายมากๆ
On Device AI
ก่อนจะไปเล่าเรื่อง Gemini Nano on Chrome มาเล่าเรื่อง On device AI ก่อน จริงๆแล้ว Concept นี้ก็เป็น concept ที่มีใน platform อื่นกันมาแล้ว เช่น Gemini Nano บน Google Pixel 8 Pro และ Galaxy S24 หรือ Apple Intelligence ที่กำลังจะมาใน iOS 18 ที่จะเปิดให้นักพัฒนาสามารถเรียกใช้งานผ่าน SiriKit ได้ ซึ่ง Concept นี้ก็จะเป็นเจ้าของ Platform เองที่จะ Build in model ของตัวเองมาให้ ซึ่งจริงๆก็จะมี ออีก concept คือ AI on Edge ที่ทำการ Ship AI Model ไปกับ source code แล้วก็ Cache ไว้บน เครื่อง Client ซึ่งถ้าเป็นเว็บก็จะใช้ WASM ในการรัน Model ซึ่งปัจจุบันมีหลาย Lib มากๆที่ Support WASM ไม่ว่าจะเป็น transformer.js, TensorFlow.js
Gemini Nano on Chrome
ก่อนอื่นเราจะใช้ Feature นี้เราต้องไปเปิด flag #prompt-api-for-gemini-nano ใน chrome://flags ก่อน

หลังจากนั้นก็ลองเทสได้เลย code สั้นๆ ตามตัวอย่างนี้ได้เลย อยากใส่ prompt อะไรก็ใส่ไปได้เลย

ซึ่ง API Doc ของ Feature นี้ ก็สามารถเข้าไปดูได้ที่นี่ จะเห็นว่าใช้ง่ายมากๆไม่ต้องเรียนรู้อะไรแปลกๆเลย ตอนนี้ก็คงเกิดคำถามว่า เราเอาไปทำอะไรได้บ้าง ซึ่งเอาไปทำได้หลายอย่างมากๆเช่น
- Live translation แปลภาษาแบบ Realtime ไม่ต้องรอ call server
- Chat Prediction ใช้ แนะนำว่าประโยคต่อไปที่ควรพิมพ์ใน Chat คืออะไร
- Rating Prediction ใช้แนะนำว่าจาก Comment นี้ ควรแปลงเป็นดาว rating กี่ดาว
** ผมได้ลองทำ Example ง่ายๆที่ใช้ feature นี้เอาไว้สามารถลองไปอ่าน code แล้วก็ไปลองเล่นกันได้ แต่อย่าลืม enable flag ก่อนนะครับ
อนาคตมันจะเป็นยังไงนะ
ผมมีความเชื่อลึกๆว่าอนาคต On Device AI จะกลายเป็นเรื่องที่ใกล้ตัวเรามากขึ้น พอ Model LLM เล็กลง เราก็น่าจะเห็นผู้ผลิต Browser bundle LLM model เข้ามาไว้ใน Browser กันมากขึ้น ส่วนเรื่อง Standard จะเป็นยังไง ก็บอกได้แค่ว่า บันเทิงแน่นอน…
ช่วย Google IOX Season ผมได้พูดเรื่อง session นี้เอาไว้ใครอยากเข้าไปดูก็ไปดู slide ได้ที่นี่นะครับ

Leave a Reply