ซอฟต์แวร์สังเคราะห์เสียงพูดภาษาไทย (VAJA) คุณภาพสูงเวอร์ชันแรกปัจจุบันพัฒนาจนเป็นเวอร์ชัน 8

การสื่อสารด้วยเสียงพูดเป็นรูปแบบการสื่อสารพื้นฐานที่สำคัญที่ทำให้ผู้รับสารสามารถเข้าถึงข่าวสารที่ต้องการสื่อได้ง่ายและมีประสิทธิภาพ โดยไม่ต้องพึ่งพาจอภาพเทคโนโลยีสร้างเสียงพูดจากข้อความ (Text-to-Speech synthesis: TTS) จึงเป็นเทคโนโลยีสำคัญที่จะเป็นเครื่องมือช่วยประชาสัมพันธ์ข่าวสารได้ในทุกพื้นที่ โดยสามารถสื่อสารเข้าถึงได้ทั้งกรณีเฉพาะบุคคลหรือการประกาศแบบวงกว้างในที่สาธารณะ โดยให้ระบบคอมพิวเตอร์สร้างเสียงคำพูดเพื่ออ่านข้อความตามที่กำหนดแบบอัตโนมัติเพื่อตอบสนองผู้รับสารหรือลูกค้าแบบทันทีทันใด ปรับเปลี่ยนได้ทันต่อแหตุการณ์ และเหมาะสมตามสถานการณ์ ซึ่งมีจุดเด่นที่เหนือกว่าการใช้เสียงที่บันทึกไว้ล่วงหน้า

ซอฟต์แวร์สร้างเสียงพูดแบบสองภาษา วาจาเวอร์ชั่น 8.0 เป็นโปรแกรมเครื่องมือเวอร์ชั่นใหม่ (2561) ที่ถูกวิจัย พัฒนา ปรับปรุงและเปลี่ยนแปลงกระบวนการสร้างเสียงพูดที่ใช้งานอยู่ในเวอร์ชั่นเดิมให้ทำงานได้มีประสิทธิภาพและถูกต้องมากยิ่งขึ้น โดยการพัฒนาได้เข้าไปแก้ไขและปรับปรุงในทั้ง 3 ส่วนสำคัญของกระบวนการสร้างเสียงพูดจากข้อความภาษาไทย อันได้แก่ ส่วนประมวลผลข้อความ, ส่วนแปลงข้อความเป็นสัญรูปหน่วยเสียง และส่วนสังเคราะห์เสียง ซึ่งในส่วนประมวลผลข้อความ วาจา 8.0 นี้ ได้เสนอการใช้งานหน่วยย่อยพื้นฐานของการอ่าน มาช่วยในการตัดแบ่งเพื่อสร้างเสียงอ่านให้ถูกต้อง ที่เรียกว่า พยางค์เสมือน (pseudo syllable) ในส่วนของการแปลงข้อความเป็นสัญรูปหน่วยเสียง วาจา 8.0 นี้ได้วิจัยและนำเสนอแนวทางใหม่โดยอาศัยเทคนิคการรู้จำสายอักษรและคาดเดาสายสัญรูปเสียง (sequence-to-sequence) ที่สามารถทำงานได้อย่างมีประสิทธิภาพด้วยการใช้คุณสมบัติทางภาษาศาสตร์ของแต่ละอักขระที่ผสมอยู่ในคำมาร่วมในการสอน CRFs ที่ใช้ในการคาดเดาสัญรูปเสียงด้วย และในส่วนสุดท้าย ส่วนการสร้างเสียงพูด วาจา 8.0 ได้นำเอาเสียงจากฐานข้อมูลเสียงสองภาษามาใช้งานเพื่อให้ได้เสียงสังเคราะห์ทั้งภาษาไทยและภาษาอังกฤษ ที่ให้เสียงได้ทั้งเสียงผู้หญิงและเสียงผู้ชาย โดยทั้งสามส่วนถูกประกบรวมกันเพื่อทำงานได้อย่างถูกต้องทั้งบน Windows และ Linux

คุณสมบัติ Vaja 8.0 :

เสียงพูด 2 ภาษา : สร้างเสียงอ่านข้อความได้ทั้งภาษาไทยและอังกฤษ ด้วยเสียงผู้ประกาศที่เป็นสองภาษา
ส่วนวิเคราะห์การอ่าน: รองรับการอ่านคำใดๆ เช่น ชื่อเฉพาะ หรือคำศัพท์ใหม่
คุณภาพเสียงใกล้เคียงกับคน: มีการพัฒนาต่อเนื่องเพื่อให้ได้เสียงที่มีความใกล้เคียงคน
การปรับรูปแบบการอ่าน : รองรับการปรับความเร็วในการอ่าน การปรับน้ำเสียงสูงต่ำ การปรับความดัง • ซึ่งมีซอฟต์แวร์ที่รองรับการทำงานจำนวนมาก และสามารถเขียนโปรแกรมเรียกใช้งานวาจาได้ง่าย
คุณสมบัติเสียง
- ชื่อโมเดลเสียง: นก (หญิง) หรือ เอ (ชาย)
- ภาษา: Bilingual (ไทย-อังกฤษ)
- รูปแบบเสียง: PCM, 44,100 Hz, 16 bits, Mono
- ลักษณะการพูด: แบบอ่านหนังสือ

ข้อกำหนดความต้องการของระบบที่จะติดตั้ง

Operating system: Windows 7, Windows 8.1, Windows 10
RAM: 1 GB or higher
Available storage space: 100 MB or higher
Sound card: General sound card

ตัวอย่างเสียงสังเคราะห์จากโปรแกรมวาจาแต่ละรุ่น

ข้อกำหนดความต้องการของระบบด้านซอฟต์แวร์

Supported APIs
Text processing: Thai and English text processing

ประโยชน์

ใช้สร้างระบบติดต่อผู้ใช้ด้วยเสียงตอบรับ
ใช้อ่าน e-book, email, ไฟล์เอกสาร ให้ออกมาเป็นเสียง หรือเป็นไฟล์เสียงไว้ฟังภายหลัง
ใช้สร้างระบบเรียกคิว ที่สามารถเรียกได้ทั้ง หมายเลข ชื่อ-นามสกุล และการแนะนำขั้นตอน
ใช้สร้างระบบสื่อการสอนและอบรม ที่มีเสียงบรรยายได้ทั้งภาษาไทยและอังกฤษ
ใช้เป็นเสียงตอบรับหรือแจ้งเตือนของซอฟต์แวร์ผู้ช่วยอิเล็กทรอนิกส์
ใช้เป็นเสียงอ่านหน้าจอคอมพิวเตอร์สำหรับผู้พิการทางสายตา ผู้มีสายตาเลือนลาง ผู้สูงอายุ

แนวทางการถ่ายทอดเทคโนโลยี

การอนุญาตให้ใช้สิทธิ์ (Licensing) เพื่อการใช้งาน โดยคิดราคาต่อ License

ทีมวิจัยและพัฒนา

ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT)

email: sawit.kas[at]nectec.or.th

สนใจผลิตภัณฑ์/ผลงาน

ติดต่อ ฝ่ายพัฒนาธุรกิจและถ่ายทอดเทคโนโลยี

ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)

โทร. 0 2564 6900 ต่อ 2346, 2351-2354, 2357, 2382, 2383, 2399

email: business[at]nectec.or.th