การสื่อสารด้วยเสียงพูดเป็นรูปแบบการสื่อสารพื้นฐานที่สำคัญที่ทำให้ผู้รับสารสามารถเข้าถึงข่าวสารที่ต้องการสื่อได้ง่ายและมีประสิทธิภาพ โดยไม่ต้องพึ่งพาจอภาพเทคโนโลยีสร้างเสียงพูดจากข้อความ (Text-to-Speech synthesis: TTS) จึงเป็นเทคโนโลยีสำคัญที่จะเป็นเครื่องมือช่วยประชาสัมพันธ์ข่าวสารได้ในทุกพื้นที่ โดยสามารถสื่อสารเข้าถึงได้ทั้งกรณีเฉพาะบุคคลหรือการประกาศแบบวงกว้างในที่สาธารณะ โดยให้ระบบคอมพิวเตอร์สร้างเสียงคำพูดเพื่ออ่านข้อความตามที่กำหนดแบบอัตโนมัติเพื่อตอบสนองผู้รับสารหรือลูกค้าแบบทันทีทันใด ปรับเปลี่ยนได้ทันต่อแหตุการณ์ และเหมาะสมตามสถานการณ์ ซึ่งมีจุดเด่นที่เหนือกว่าการใช้เสียงที่บันทึกไว้ล่วงหน้า
ซอฟต์แวร์สร้างเสียงพูดแบบสองภาษา วาจาเวอร์ชั่น 8.0 เป็นโปรแกรมเครื่องมือเวอร์ชั่นใหม่ (2561) ที่ถูกวิจัย พัฒนา ปรับปรุงและเปลี่ยนแปลงกระบวนการสร้างเสียงพูดที่ใช้งานอยู่ในเวอร์ชั่นเดิมให้ทำงานได้มีประสิทธิภาพและถูกต้องมากยิ่งขึ้น โดยการพัฒนาได้เข้าไปแก้ไขและปรับปรุงในทั้ง 3 ส่วนสำคัญของกระบวนการสร้างเสียงพูดจากข้อความภาษาไทย อันได้แก่ ส่วนประมวลผลข้อความ, ส่วนแปลงข้อความเป็นสัญรูปหน่วยเสียง และส่วนสังเคราะห์เสียง ซึ่งในส่วนประมวลผลข้อความ วาจา 8.0 นี้ ได้เสนอการใช้งานหน่วยย่อยพื้นฐานของการอ่าน มาช่วยในการตัดแบ่งเพื่อสร้างเสียงอ่านให้ถูกต้อง ที่เรียกว่า พยางค์เสมือน (pseudo syllable) ในส่วนของการแปลงข้อความเป็นสัญรูปหน่วยเสียง วาจา 8.0 นี้ได้วิจัยและนำเสนอแนวทางใหม่โดยอาศัยเทคนิคการรู้จำสายอักษรและคาดเดาสายสัญรูปเสียง (sequence-to-sequence) ที่สามารถทำงานได้อย่างมีประสิทธิภาพด้วยการใช้คุณสมบัติทางภาษาศาสตร์ของแต่ละอักขระที่ผสมอยู่ในคำมาร่วมในการสอน CRFs ที่ใช้ในการคาดเดาสัญรูปเสียงด้วย และในส่วนสุดท้าย ส่วนการสร้างเสียงพูด วาจา 8.0 ได้นำเอาเสียงจากฐานข้อมูลเสียงสองภาษามาใช้งานเพื่อให้ได้เสียงสังเคราะห์ทั้งภาษาไทยและภาษาอังกฤษ ที่ให้เสียงได้ทั้งเสียงผู้หญิงและเสียงผู้ชาย โดยทั้งสามส่วนถูกประกบรวมกันเพื่อทำงานได้อย่างถูกต้องทั้งบน Windows และ Linux
คุณสมบัติ Vaja 8.0 :
- เสียงพูด 2 ภาษา : สร้างเสียงอ่านข้อความได้ทั้งภาษาไทยและอังกฤษ ด้วยเสียงผู้ประกาศที่เป็นสองภาษา
- ส่วนวิเคราะห์การอ่าน: รองรับการอ่านคำใดๆ เช่น ชื่อเฉพาะ หรือคำศัพท์ใหม่
- คุณภาพเสียงใกล้เคียงกับคน: มีการพัฒนาต่อเนื่องเพื่อให้ได้เสียงที่มีความใกล้เคียงคน
- การปรับรูปแบบการอ่าน : รองรับการปรับความเร็วในการอ่าน การปรับน้ำเสียงสูงต่ำ การปรับความดัง • ซึ่งมีซอฟต์แวร์ที่รองรับการทำงานจำนวนมาก และสามารถเขียนโปรแกรมเรียกใช้งานวาจาได้ง่าย
- คุณสมบัติเสียง
- ชื่อโมเดลเสียง: นก (หญิง) หรือ เอ (ชาย)
- ภาษา: Bilingual (ไทย-อังกฤษ)
- รูปแบบเสียง: PCM, 44,100 Hz, 16 bits, Mono
- ลักษณะการพูด: แบบอ่านหนังสือ
ข้อกำหนดความต้องการของระบบที่จะติดตั้ง
- Operating system: Windows 7, Windows 8.1, Windows 10
- RAM: 1 GB or higher
- Available storage space: 100 MB or higher
- Sound card: General sound card
ตัวอย่างเสียงสังเคราะห์จากโปรแกรมวาจาแต่ละรุ่น
ข้อกำหนดความต้องการของระบบด้านซอฟต์แวร์
- Supported APIs
- Text processing: Thai and English text processing
ประโยชน์
- ใช้สร้างระบบติดต่อผู้ใช้ด้วยเสียงตอบรับ
- ใช้อ่าน e-book, email, ไฟล์เอกสาร ให้ออกมาเป็นเสียง หรือเป็นไฟล์เสียงไว้ฟังภายหลัง
- ใช้สร้างระบบเรียกคิว ที่สามารถเรียกได้ทั้ง หมายเลข ชื่อ-นามสกุล และการแนะนำขั้นตอน
- ใช้สร้างระบบสื่อการสอนและอบรม ที่มีเสียงบรรยายได้ทั้งภาษาไทยและอังกฤษ
- ใช้เป็นเสียงตอบรับหรือแจ้งเตือนของซอฟต์แวร์ผู้ช่วยอิเล็กทรอนิกส์
- ใช้เป็นเสียงอ่านหน้าจอคอมพิวเตอร์สำหรับผู้พิการทางสายตา ผู้มีสายตาเลือนลาง ผู้สูงอายุ
แนวทางการถ่ายทอดเทคโนโลยี
- การอนุญาตให้ใช้สิทธิ์ (Licensing) เพื่อการใช้งาน โดยคิดราคาต่อ License
ทีมวิจัยและพัฒนา
- ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT)
- email: sawit.kas[at]nectec.or.th
สนใจผลิตภัณฑ์/ผลงาน
- ติดต่อ ฝ่ายพัฒนาธุรกิจและถ่ายทอดเทคโนโลยี
- ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
- โทร. 0 2564 6900 ต่อ 2346, 2351-2354, 2357, 2382, 2383, 2399
- email: business[at]nectec.or.th