รู้จัก Susan Bennett ผู้ให้เสียง Siri ดั้งเดิม พร้อมประสบการณ์ทำงานด้านเสียงของเธอ

susan-bennett-siri

เมื่อนานมาแล้ว ทีมงาน MacThai เคยรายงานการเผยโฉมเจ้าของเสียง ​Siri ต้นฉบับคือ Susan Bennett และวันนี้เธอก็ได้ออกมาให้สัมภาษณ์ โดยเผยกระบวนการเบื้องหลังการอัดเสียง รวมถึงอาชีพด้านเสียงของเธอก่อนมาเป็น Siri

Bennett เป็นนักดนตรี เธอเล่นเปียโนมาตั้งแต่อายุ 4 ขวบ เธอรู้ว่าเพลงคือส่วนสำคัญมากในชีวิตเธอ และในช่วงปลายทศวรรษ 1960 – ต้นทศวรรษ 1970 เธอได้เป็นนักร้องแบคอัพของ Burt Bacharach และ Roy Orbison และเธอยังเป็นคนร้องเสียง jingles ที่ออกอากาศเป็นโฆษณาทางวิทยุและทีวีอีกด้วย

เมื่อในช่วงกลางทศวรรษ 1970 เป็นยุคที่คอมพิวเตอร์เริ่มปรากฏบนท้องถนนในสหรัฐฯ​ ในรูปแบบ “เครื่องจักรด้านการเงิน” หรือเอทีเอ็มนั่นเอง ในตอนนั้นธนาคารพยายามจะเริ่มผลักดันการใช้งานเอทีเอ็ม แต่ผู้ใช้ทั่วไปก็ไม่อยากใช้ คือยังไม่มีความเชื่อถือถ้าเดินเข้าธนาคารและรับเงินออกมาจากเครื่อง

ในตอนนั้น บริษัทเอเจนซี่โฆษณาชื่อว่า McDonald & Little มีเป้าหมายว่าจะทำการปรับปรุงเครื่องเอทีเอ็มให้เป็นมิตรต่อผู้ใช้และเรียกมันว่า Tillie คือเอทีเอ็มที่พูดกับผู้ใช้ได้ โดย Bennett ก็ได้เป็นผู้ไปให้เสียงกับ Tillie ซึ่งด้วยวิธีการดังกล่าวทำให้เอทีเอ็มกลายเป็นที่นิยมขึ้นมา

โฆษณา Tillie ผู้ช่วยส่วนตัวที่เป็นมิตรกับผู้ใช้เอทีเอ็มในยุคแรก ๆ
โฆษณา Tillie ผู้ช่วยส่วนตัวที่เป็นมิตรกับผู้ใช้เอทีเอ็มในยุคแรก ๆ

ในช่วงปี 1980-1990 นั้น เสียงของ Bennett ก็เริ่มถูกใช้งานใน GPS และอุปกรณ์ประเภท interactive voice response systems (IVRs)

สู่การให้เสียงกับงาน Text-to-speech

ในช่วงปี 1987 นั้น Apple ก็ได้วางแผนสร้างผู้ช่วยเสมือนอัจฉริยะนามว่า Knowledge Navigator ที่ช่วยจัดการปฏิทิน, อ่านอีเมล, สร้างวิดีโอคอนเฟอเรนซ์ โดยจะมีหน้าตา, เสียง และบุคลิกเหมือนกับมนุษย์ แต่ในยุคนั้นก็มีช่องว่างระหว่างความฝันและความจริงมาก เนื่องจากเทคโนโลยีในตอนนั้นยังไม่ได้พัฒนาได้ดีเพียงพอที่จะมีประสิทธิภาพสำหรับใช้ในการระบุเสียง, ประมวลผลภาษาธรรมชาติ หรือใช้งาน machine learning algorithm

เมื่อถึงช่วงปี 2005 นั้น Bennett กล่าวว่าเธอใช้เวลานับเดือนในการพูดคำที่ดูไม่มีความหมาย อย่างเช่น

“Malitia oi hallucinate, buckry ockra ooze
Cathexis fefatelly sexual ease stump
Say the shrodding again, say the shroding again, say the shreeding again, say the shriding again, say the shrading again, say the shrudding again.”

Bennett กล่าวว่าตอนนั้นเธอกำลังอัดเสียงให้กับบริษัทที่ทำงานด้าน text-to-speech ซึ่งนั่นเป็นสิ่งใหม่มาก ไม่มีไอเดียจริง ๆ เลยว่ากำลังทำอะไรอยู่ ตอนนั้นคิดว่าเธอกำลังทำสคริปต์ใหม่สำหรับระบบโทรศัพท์ ตอนนั้นเธอรับค่าจ้างเป็นชั่วโมง และต้องเซ็นสัญญาทำงานเป็นเวลา 5 ปี

บริษัท text-to-speech นั้นคือ ScanSoft และระบบข้อความโทรศัพท์ที่ว่านั้นสุดท้ายแล้วจริง ๆ คือ Siri นั่นเอง เสียงที่ดูไม่ได้ศัพท์ที่เธอพูดให้นั้นถูกใช้เทคนิคการสังเคราะห์คำพูดที่เรียกว่า concatenation และผลสุดท้ายก็มาอยู่ในอุปกรณ์อิเล็กทรอนิกส์ที่เราคุ้นเคยกัน

iOS 6 Siri

Bennett ให้ความเห็นว่า ก่อนหน้าที่จะมี Siri เสียงที่เกิดจาก concatenation จะดูเหมือนหุ่นยนต์มาก ดังนั้นจึงไม่ค่อยมีใครอยากจะตอบสนองกับเสียงลักษณะนี้เท่าไร เธอคิดว่าเหตุผลที่ Siri โด่งดังขึ้นมาได้เพราะเป็นธรรมชาติราวกับว่ามีคนอยู่ในโทรศัพท์จริง ๆ

เทคโนโลยีเบื้องหลัง Siri นั้นถูกพัฒนาโดยวิศวกรชาวนอร์เวย์สามคนคือ Adam Cheyer, Dag Kittlaus และ Tom Gruber พวกเขาก่อตั้งบริษัท Siri, Inc. และหลังจากก่อตั้งบริษัทไปได้ไม่นานนัก Cheyer ก็ได้รับโทรศัพท์ซึ่งมีปลายสายเป็น Steve Jobs ซึ่งบทสนทนาในโทรศัพท์ครั้งนั้นมีอยู่ว่า

เฮ้ นี่ Steve นะ พรุ่งนี้คุณทำอะไร? อยากมาบ้านผมไหม?

จากนั้นในปี 2010 บริษัท Apple ก็เข้าซื้อ Siri, Inc. และ Cheyer ก็ได้เข้าเป็น Director of Engineering สำหรับทีมพัฒนา iPhone และ iOS ทำให้ฝัน Knowledge Navigator ของ Steve Jobs ที่วาดไว้เป็นจริงขึ้นมาได้

หลังจากเข้าสตูดิโอของ ScanSoft ไปได้แล้ว 6 ปี Bennett ก็เริ่มขายเสียงพูดของเธอให้กับ Coke, IBM, Ford และบริษัทยักษ์ใหญ่รายอื่น รวมถึงเสียงประกาศบนเครื่องบินโดยสารของสายการบิน Delta ด้วย ดังนั้นเสียงของเธอจึงถูกใช้งานเป็นวงกว้าง

iOS 7 - Siri

อย่างไรก็ดี ใน iOS 7 ที่ออกมาในปี 2013 นั้น Apple ได้เลิกใช้เสียงของ Bennett ใน Siri และ Apple ก็ยังไม่เคยออกมายืนยันอย่างเป็นทางการว่า Bennett นั้นเป็นเจ้าของเสียงตัวจริงของ Siri

เรียบเรียงโดย
ทีมงาน MacThai

ข้อมูลและภาพจาก TypeForm

วิดีโอ TEDxFurmanU ซึ่ง Susan Bennett ขึ้นพูดถึงรายละเอียดการทำงานด้านเสียง