By Noppadon Wisuttikun - 13 August 2021

Voice Interaction: พัฒนาการไร้ขอบเขตของเทคโนโลยีและเสียง

เราทุกคนที่ผ่านมาอ่านเรื่องราวนี้ล้วนแต่กำลังเป็นพยานของการเติบโตขึ้นของเทคโนโลยีที่ใช้การปฏิสัมพันธ์ด้วยเสียง หรือ Voice Interaction ซึ่งเติบโตและมีการพัฒนาความสามารถให้มากขึ้นเรื่อย ๆ จากเพียงแค่ฟังและรับรู้ได้ว่าเราพูดอะไร ไปจนถึงการพูดโต้ตอบ เล่าเรื่องตลก แสดงน้ำเสียง กระซิบ หรือแม้แต่เล่นบทบาทสมมติเป็นสิ่งของอย่างเครื่องบินกระดาษ หรือดาวพลูโตกันแล้ว


กล่องรองเท้าของคุณบวกเลขได้ไหม?

พัฒนาการของเทคโนโลยีด้าน Voice Interaction เป็นสิ่งที่เกิดขึ้นล้อไปกับพัฒนาการของปัญญาประดิษฐ์ที่ก้าวหน้าขึ้นทุกวัน และเมื่อถูกนำไปเชื่อมต่อเข้ากับเทคโนโลยีอื่น ๆ ก็เป็นสิ่งที่ช่วยสร้า้งประโยชน์ และอำนวยความสะดวกให้กับผู้คนมากมายทั่วโลกได้ เช่นนำไปเชื่อมต่อกับเทคโนโลยี IoT เพื่อเปิดปิดเครื่องใช้ไฟฟ้าในบ้านด้วยคำสั่งเสียง หรือนำไปใช้กับการแปลภาษาเพื่อสร้างคำแปลเป็นภาษาของคุณโดยอัตโนมัติตอนที่กำลังประชุมออนไลน์กับชาวต่างชาติ เป็นต้น

สิ่งเหล่านี้ได้รับการวิจัยและพัฒนาจากวิศวกร และผู้เชี่ยวชาญด้านภาษาจากทั่วโลกมานานหลายทศวรรษโดยมีจุดเริ่มต้นย้อนกลับไปถึงปี 1961 ในโปรเจ็คที่ชื่อว่า “IBM Shoebox” ซึ่งเป็นคอมพิวเตอร์ขนาดเล็กเท่า ๆ กับกล่องรองเท้าที่พัฒนาชึ้นโดย William C. Dersch ให้สามารถสั่งการด้วยเสียงได้ โดยความสามารถของ Shoebox ยังจำคำสั่งเสียงได้เพียงแค่ 16 คำ ซึ่งเป็นตัวเลข 0-9 ไปแล้ว 10 คำ และที่เหลือก็เป็นคำสั่งอย่างเช่น “Plus”, “Minus” หรือ “Total” สำหรับการคำนวณทางคณิตศาสตร์แล้วพิมพ์คำตอบออกมา และภายหลังในปี 1962 เขาก็ได้สาธิตการทำงานของกล่องรองเท้ามหัศจรรย์นี้ให้โลกได้ดูเป็นครั้งแรกผ่านการออกอากาศทางทีวี

Shoebox ที่พัฒนาโดย William Dersch วิศวกรของ IBM ในปี 1961 ก่อนที่จะเผยแพร่ต่อสาธารณะในปีถัดมา

แม้ในตอนนั้นจะยังไม่มีใครรู้ว่าสิ่งประดิษฐ์แบบนี้จะเอาไปทำอะไรได้ แต่เทคโนโลยีนี้ก็ถูกพัฒนาเรื่อยมานานหลายสิบปีจนมาอยู่ในมือถือ ในบ้าน บนข้อมือ หรือในรถของเรา ที่ไม่ทันจะรู้ตัวเราก็คุ้นเคยกับมันในชื่อ Siri, Alexa, Cortana หรือ Google Assistant ไปซะแล้ว และแนวโน้มการใช้งานผู้ช่วยเสียงอัจฉริยะเหล่านี้ก็ดูจะเพิ่มขึ้นอย่างต่อเนื่องจนมีการศึกษาโดย Juniper Research ว่าอาจมากถึง 8 พันล้านต่อปีครั้งในปี 2023 ซึ่งนอกจากมาจากการใช้งานบนสมาร์ทโฟนเป็นหลัก ก็ยังมีจำนวนการใช้งานที่เติบโตขึ้นจากสมาร์ททีวี อุปกรณ์แบบสวมใส่ และลำโพงอัจฉริยะอีก

ดาวพลูโตพูดภาษาอะไร?

การสร้าง UI สำหรับการปฏิสัมพันธ์ด้วยเสียงหรือ VUI (Voice User Interface) ใน Digital Product ยังถือเป็นแนวทางหนึ่งในการสร้างรูปแบบการใช้งานที่ไร้การสัมผัส (Touchless) นอกเหนือไปจากวิธีที่เราอาจจะคุ้นเลยอยู่แล้วอย่างการเชื่อมต่อไร้สารผ่าน Bluetooth, NFC (Near Field Communication) หรือการวาดมือกลางอากาศ (Air Gesture) และยังเป็นช่องทางหนึ่งในการสร้างประสบการณ์แบบไร้รอยต่อ เมื่อต้องใช้งานแอพพลิเคชั่นเดียวกันข้ามอุปกรณ์ เช่น คุณกำลังจะแต่งตัวออกจากบ้านเลยบอก Alexa ให้เรียก Uber ให้คุณ แล้วเมื่อรถของคุณใกล้มาถึงสมาร์ทวอชบนข้อมือของคุณก็แจ้งเตือนให้คุณเตรียมตัวให้ทัน เพื่อจะได้ไปถึงที่หมาย โดยที่มือของคุณไม่ต้องกดเปิดแอพ Uber เองในมือถือเลยด้วยซ้ำ

แม้การใช้งานผู้ช่วยเสียงในไทยอาจจะไม่ได้สะดวกและเชื่อมต่อเป็นอันหนึ่งอันเดียวกันแบบตัวอย่างที่ยกมาขนาดนั้น แต่ผู้พัฒนาก็อัพเดทความสามารถใหม่ ๆ ที่รองรับภาษาไทยด้วย อย่างเช่นฟีเจอร์ “Announce Notification” ของ Siri ที่เพิ่งเปิดตัวไปเมื่อไม่กี่สัปดาห์ก่อน ซึ่งจะทำหน้าที่อ่านการแจ้งเตือนที่เกี่ยวข้องกับสถานที่หรือเวลาเป็นเสียงให้ฟังได้หากกำลังใส่หูฟังอยู่ เช่นข้าวมันไก่ที่สั่งเดลิเวอรี่ไว้มาถึงแล้ว หรือเตือนให้ซื้อน้ำยาซักผ้าเมื่อคุณบังเอิญหรือตั้งใจผ่านไปร้านค้าซอยข้าง ๆ พอดี

บทสนทนาระหว่างทีมงาน Google และดาวพลูโต ที่สาธิตในงาน Google I/O 2021

แต่ขณะเดียวกันก็มีการพัฒนา AI สำหรับการคุยด้วยเสียงในเรื่องที่หลากหลายมากกว่าแค่การเป็นผู้ช่วยไร้หน้าในสมาร์ทโฟน อย่าง “LaMDA” ที่เปิดตัวโดย Google เมื่อเดือนพฤษภาคมที่ผ่านมา ที่ทำให้เราอาจต้องยืมคำพูดที่คนเมื่อ 60 ปีก่อนพูดถึงกล่องรองเท้าของ IBM นั้นมาใช้ เพราะมันคือโมเดลทางภาษาที่เอาไว้ใช้สำหรับการสนทนาในเรื่องอะไรก็ได้ และคำว่าอะไรก็ที่ Google ยกมาสาธิตก็ดันเป็นการให้เจ้า LaMDA สวมบทเป็นเครื่องบินกระดาษแล้วมาพูดคุยกับเราซะอย่างนั้น แต่อันที่จริงแล้วเมื่อลองสาธิตให้มันสวมบทเป็นดาวพลูโตมันก็สามารถให้ข้อมูลได้อย่างมีชั้นเชิงเลยทีเดียว และคงเป็นประสบการณ์ที่แปลกใหม่มาก ๆ ที่เราจะรู้ข้อมูลของอะไรบางอย่างจากการคุยกับ AI ที่สวมบทเป็นของสิ่งนั้น

พัฒนาการของการจดจำเสียงได้ ไปจนถึงการเข้าใจคำและประโยคแต่ละอย่างแบบเดียวกับที่มนุษย์เข้าใจ ช่วยให้คอมพิวเตอร์สามารถอำนวยความสะดวกในชีวิตคนได้มากขึ้นเรื่อย ๆ การใช้เสียงในการโต้ตอบกับคอมพิวเตอร์ยังเป็นช่องหนึ่งที่ช่วยให้ผู้ที่มีข้อจำกัดทางร่างกายเข้าถึงฟีเจอร์ต่าง ๆ ได้เท่าเทียมกับคนอื่น หรืออาจช่วยให้คุณขับรถได้อย่างปลอดภัยและแม่นยำมากขึ้นจากระบบการนำทางด้วยเสียงก็ได้ เพราะคุณต้องมองทางข้างหน้าตลอดนี่นา ไม่ใช่จอมือถือสักหน่อย และในแง่ธุรกิจแล้ว คุณอาจได้ผู้ใช้งานเพิ่มขึ้นหรืออย่างน้อยก็สร้างความตระหนักถึงแบรนด์ของคุณได้มากขึ้นแน่ ๆ หากคุณพัฒนาการโต้ตอบด้วยเสียงใน Product ของคุณ

ตั้งชื่อให้ Voice Assistant ของคุณไว้หรือยัง?

แม้เราจะรู้ว่าจุดที่เหนือที่สุดในโลกคือขั้วโลกเหนือ แต่ในโลกของประสบการณ์เสียงเป็นอะไรที่ยังไม่มีใครเจอขอบเขตของมัน เพราะนอกจากการใช้เป็นผู้ช่วยอัจฉริยะ หรือใช้บอกทางเวลาขับรถ ใครจะรู้ว่าเราก็สามารถฮัมเพลงที่ติดอยู่ในหูให้ Google Assistant ฟังแล้วค้นหาชื่อเพลงให้เราได้แค่ถามไปว่า “What is this song?” หรือโดยที่เราอาจไม่รู้ตัวว่าคอลเซ็นเตอร์ของธนาคารบางแห่งนอกจากจะให้เรากดหมายเลขต่าง ๆ เพื่อยืนยันตัวตนแล้วก็ยังใช้เสียงเพื่อยืนยันตัวเราอีกชั้นหนึ่งไปอีก

และอีกปัญหาคนโสด เวลาปัดแอพหาคู่แล้วเห็นแต่รูปแต่ไม่รู้จักอะไรคน ๆ นั้นเลย ก็มีการพัฒนาแอพพลิเคชั่น “AIMM” ซึ่งเป็นแอพหาคู่ที่ใช้แต่เสียงในการทำงานขึ้นมาแล้วจริง ๆ ที่ผู้ใช้งานจะได้เห็นทั้งรูปและเสียงก่อนจะตัดสินใจเดทกับใครสักคน


หรือขยับมาใกล้อีกนิดกับระบบ SER (Speech Emotion Recognition หรือ THAI SER) ที่ค่ายมือถืออย่าง AIS พัฒนาขึ้นเพื่อเป็น AI สำหรับบอกอารมณ์ความรู้สึกของลูกค้าที่โทรเข้ามาที่ศูนย์บริการไม่ว่าจะ โกรธ หงุดหงิด เศร้า สุข และจะได้โอนสายไปยังพนักงานตามความสามารถในการรับมือกับอารมณ์แบบต่าง ๆ

ถือว่าเป็นอีกเทคโนโลยีหนึ่งที่เดินทางและได้รับการพัฒนาผ่านเวลามาไกลมาก ๆ และใครจะรู้ว่าในอนาคตอันใกล้เราอาจจะได้คุยกับคอมพิวเตอร์แบบที่ Tony Stark คุยกับ Jarvis ในภาพยนตร์ Ironman หรือจะตกหลุมรับกับคอมพิวเตอร์ได้แบบที่ Theodore ตกหลุมรัก Samantha ที่เป็นระบบปฏิบัติการคอมพิวเตอร์แบบโต้ตอบด้วยเสียงในภาพยนตร์เรื่อง Her ก็เป็นได้

MORE ARTICLES

0 Comment