
TLDR
วันนี้ Chrome ยัด highlevel function สำหรับเรียก Gemini nano มาแล้ว 6 ตัว Translator API, Language Detector API, Summarizer API, Writer / Rewriter API, Proofreader API, Prompt API
บางตัวจะเริ่มใช้ได้ตั้งแต่ Chrome 138 ส่วน Prompt API ใช้ได้บน Extension ก่อน
Microsoft Edge เอาด้วย function หน้าตาเหมือนกันเลย
จากหลายเดือนก่อนที่ Google เปิดตัว Built-in AI มาใน chrome ที่ทำให้นักพัฒนาสามารถเข้าถึงตัว model ที่อยู่ใน Browser ผ่าน function ใน Javascript ได้ ในวันนั้น เราเรียกใช้ได้แค่ตัว prompt แต่พอเวลาผ่านไป Google ก็เปลี่ยน แนวทางแทนที่จะ provide เป็น prompt อย่างเดียวก็เปลี่ยนเป็น ready to use function มากขึ้น วันนี้เรามาดูกันดีกว่าว่า ready to use function ที่ผมว่ามีอะไรบ้าง ซึ่งประโยชน์ของ Built-in AI คือ การที่เราไม่ต้องมานั่งเสียเงิน call ไปหา Gemini API ตรงๆทุกครั้งและยังสามารถทำงานง่ายๆจบได้ที่ browser ฝั่ง frontend ได้เลย
Translator API
API ตัวนี้จะช่วยให้เราไม่ต้องมานั่งเปลี่ยนเรียก Cloud API เพื่อแปลภาษาเองแล้วเพราะว่าเราสามารถเรียกตรงๆจาก Browser ได้เลยโดยที่เราต้องเช็คก่อนว่า คู่ภาษาของเรา support มั้ย feature นี้ช่วยให้คนที่ทำเว็บแล้วต้องมาคิดเรื่อง support หลายภาษาหายห่วงไปได้เลยเพราะเมื่อก่อนจะทำ feature แบบนี้ทีต้องมาคิดเรื่อง จะ จ่ายค่า cloud ไหวยังไง

Language Detector API
นอกจากจะแปลภาษาได้แล้ว เรายัง detect ภาษาได้ด้วยซึ่งบางทีเราต้องเอาไปเช็ค api ที่ต้องยิง หรือ ต้องเอามา detect ภาษาที่จะต้องเอาไปแปลใน process ต่อๆไป ซึ่งปกติแล้วเราต้อง implement สิ่งๆนี้ด้วย API หรือไม่ก็ต้องไปใช้ service ที่เสียเงิน

Summarizer API
มาถึง API ที่ผมชอบอีกตัวนึงคือ Summarizer API เพราะ API ตัวนี้จะช่วยให้เราแปลง บทความยาวๆเป็นสรุปง่ายๆ ซึ่งใน option เราสามารถกำหฟนดได้ว่าอยากได้ สรุป style ไหน tldr, teaser, key-points หรือ headline ซึ่งทั้งหมดนี้เราสามารถกำหนดความยาวได้หมดเลย และบอกได้ด้วยว่าอยากได้เป็น markdown หรือ pain text

ถ้าถามว่า result ออกมาประมาณไหน ผมลองเอาบทความในเว็บนี้ไป ให้สรุปดู ฏ็ได้ออกมาประมาณนี้ ซึ่งก็พอจะใช้ได้อยู่สำหรับทำ feature TLDR บนเว็บไซต์ต่างๆ ได้ หรือใช้สรุปบทความยาวๆเป็น chatbot ไว้คุยกับ user ได้
* Meta is actively developing and testing an official Instagram app for iPad, with a release expected this year.
* The delay in releasing an iPad-optimized Instagram app was partly due to technical limitations and perceived petty reasons.
* The decision to develop the iPad app comes as Instagram's user base has grown, the device has become more powerful, and the platform's use cases have evolved.
สำหรับ 3 API นี้เราจะได้ใช้กันบน Chrome version 138 ทั้งบน Extension และ บน Web API

Writer / Rewriter API
API สองตัวนี้จะช่วงงานที่คล้ายๆกันคือ ตัว Writer จะช่วยให้เราสามารถเขียน บทความหรืออีเมลจาก prompt ได้ ส่วน re-writer จะ ใช้ในกรณีที่ เรามีอีเมลหรือบทความอยู่แล้วแต่อยากให้ AI ช่วยเปลี่ยน แนวทางการเขียนให้ใหม่หน่อย API สองตัวนี้ใช้เหมือนกันแทบจะ 100% ต่างกันแค่ชื่อ function เท่านั้นเอง

จากที่ลองตัว AI ก็ช่วย Rewrite ออกมาดีในระดับนึงเลย บวกกับถ้าเราบอกว่าใครเขียนเป็น email ก็มาเป็นรูปแบบ Email อย่างดีเลย
API สองตัวนี้ตอนนี้อยู่ในสถานะ Origin trial แล้วซึ่งใครอยากใช้ก็ไป register กันก่อนได้ แต่คิดว่าน่าจะมาใน Chrome 142 เป็นอย่างเร็ว

ที่น่าสนใจคือ ฝั่ง Microsoft เองก็ได้ฝั่ง Model ที่ทำเอง อย่าง Phi เข้าไปใน Microsoft Edge ซึ่งทำให้ตัว Microsoft Edge สามารถใช้งาน Summarizer API และ Writer / Rewriter API ได้เหมือน Google Chrome ที่สำคัญ API หน้าตาเหมือนกัน 100%
Proofreader API
API ตัวนี้ต้องบอกว่าว่างเปล่ามากๆ มีการ Demo ใน session นึงของ Google IO แต่ยังไม่ได้มี Detail อะไรออกมามาก แต่เท่าที่เข้าใจคือ API ตัวนี้จะช่วยบอกเราว่าคำไหน พิมพ์ผิด โดยบอกเป็น positon ของ text ออกมาให้เราเอาไป highlight เอง แต่เดาได้ว่าหน้าตา API ก็คงไม่พ้น ตัวอื่นๆ ซึ่งคงออกมาให้เราลอง ตอน Chrome 140 ด้วยการเปิด flags
Prompt API
มาถึงตัวสุดท้าย API นี้เป็น API ที่เป็น prompt ปกติเลยที่เราเขียนอะไรก็ได้ เหมือนการเขียน prompt ปกติของพวก LLM ซึ่ง feature นี้มีมาตั้งแต่วันแรกเลยของ Built-in AI แต่มีสิ่งที่พัฒนามาจากตอนปี 2024 อยู่หลายอย่างมากๆ
- หน้าตา API ที่เป็นไป ดูเป็น standard มากขึ้น และเขียนง่ายมากขึ้น (หลังจากเปลี่ยนมา 3 รอบ)

- ใน version นี้ ตัว prompt API Support Multi Modal ทั้งเสียงแล้วก็รูปภาพเราสามารถส่ง prompt ได้มากว่า text

- กำหนด structure output ได้ให้ออกมาเป็น JSON หรือ Specific Type เพื่อทำให้เราเขียน โปรแกรมได้ง่ายขึ้น https://developer.chrome.com/docs/ai/structured-output-for-prompt-api
จะเห็นได้ว่า ตอนนี้ตัว API ของตัว built-in ค่อนข้างใกล้เคียงกับตัว Cloud มากขึ้นแล้ว นี่ยังไม่รวม Stream output ที่ support ตั้งแต่แรก คงอีกไม่นานแล้วที่จะเห็น Built-in AI ทำงานได้ไม่แพ้ตัว Cloud API แต่น่าเสียดายนิดหน่อยที่ตอนนี้ ตัว Prompt API ยังจะ support แต่บน Chrome extension ไปก่อนในช่วงแรก ถ้าจะใช้บน web ต้องเปิด flag ใน browser ใช้เท่านั้น

แต่อีกข่าวดีของ Prompt API ก็คือ Microsoft ตัดสินใจเอาด้วย API หน้าตาเหมือนกัน 100% ต่อไปใช้ browser ต่างกันก็ไม่ต้องกังวลเรื่อง compatibility แล้ว
สรุป
จะเห็นว่าตอนนี้ Standard ของ function ทั้งหมดนี้ก็ดูไปในทางเดียวกันแล้วทั้ง Chrome และ Edge ผมคิดว่าในอนาคตถ้าแต่ละเจ้าทำ Model ของตัวเองเสร็จก็ไม่น่าจะหนีไปจากนี้มากจากนี้ หลักๆคือ เราต้อง เรียก Method “availability” ก่อนเพื่อเช็คว่ามี Model อยู่มั้ย ต้อง Download มั้ย ถ้า Download เสร็จ ก็เรียก Method “create” ส่วน method ของแต่ละ function ก็จะต่างกันออกไปนิดหน่อยบ
ปัญหาที่ทุกคนถามคงไม่พ้นเรื่อง Device ต้องบอกว่าตอนนี้ Feature นี้ยัง Support แค่ Desktop ที่มี Ram 4 GB ละ มี storage เหลือ 22 GB ขึ้นไปอยู่ ก็ต้องดูว่า จะมี Gemini Nano รุ่นใหม่ที่เล็กลงกว่านี้ออกมามั้ย ถ้ามี ก็คิดว่าน่าจะไปอยู่ใน Mobile Device หรือเครื่องที่ Spec ต่ำลงไม่ยาก
ส่วนถ้าใครสงสัยว่ามีใครใช้ใน production หรือยังคำตอบคือ “ยัง” น่าจะต้องรออีกซักพักเลยกว่าจะมีคนเอาไปใช้จริงๆ
Playground
ผมได้ลองสร้าง Playground ง่ายๆมาให้ทุกคนได้ลองเล่นเผื่อจะนึกออกว่าเอาไปทำอะไรได้บ้าง

เนื้อหาเพิ่มเติม
- https://developer.chrome.com/docs/ai/get-started
- https://learn.microsoft.com/en-us/microsoft-edge/web-platform/prompt-api
- https://learn.microsoft.com/en-us/microsoft-edge/web-platform/writing-assistance-apis

Leave a Reply