OpenThaiGPT เทคโนโลยีทางภาษาแบบ ChatGPT (Large Language Model) พัฒนาเพื่อคนไทยทุกคน เป็นโอเพ่นซอร์ส โมเดลแชทภาษาไทยขนาดใหญ่ขนาด 7, 13 และ 70 พันล้านพารามิเตอร์ ซึ่งพัฒนาต่อยอดจาก Facebook LLaMA v2 ให้มีความสามารถในการเข้าใจและเขียนภาษาไทยได้ เปิดโค้ดและโมเดลอย่างเสรี (Opensource) ให้ทุกคนสามารถนำไปพัฒนาต่อยอดหรือแม้กระทั่งการทำการค้าได้ (Apache 2.0 License) เพื่อเป็น Infrastructure พื้นฐานด้านปัญญาประดิษฐ์สำหรับคนไทยทุกคน พัฒนาโดยทีมนักวิจัยจาก สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT), สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT) , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC), ศูนย์ทรัพยากรคอมพิวเตอร์เพื่อการคำนวณขั้นสูง (ThaiSC) สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) และ Pantip.com โดยรวบรวมจากฐานข้อมูลและกระทู้ต่าง ๆ บนพันทิป.คอม ตั้งแต่อดีตจนถึงปัจจุบันรวม 20 ปี และประมวลผลโดยเครื่องซูเปอร์คอมพิวเตอร์ลันตา (LANTA) ของ สวทช.
เว็บไซต์หลัก OpenThaiGPT https://openthaigpt.aieat.or.th/
จุดเด่น
- โมเดลภาษาไทย LLM แบบเปิดที่ทันสมัยที่สุด, ทำคะแนนสอบภาษาไทยได้เฉลี่ยสูงสุดเมื่อเทียบกับโมเดลภาษาไทยแบบเปิดอื่นๆ
- เป็นโมเดลเปิดภาษาไทยที่มีขนาดใหญ่ถึง 70 พันล้านพารามิเตอร์โมเดลแรกของโลก
- รองรับการสนทนาโต้ตอบหลายครั้งแบบต่อเนื่อง (Multi-turn Conversation)
- โมเดลมีความสามารถในการค้นหาข้อมูลและสกัดคำตอบบน Prompt ที่มีความยาวได้อย่างมีประสิทธิภาพ
- ความเร็วในการตอบคำถามรวดเร็ว ด้วยการเพิ่มคำภาษาไทยที่พบบ่อยมากถึง 10,000 คำลงในพจนานุกรมของโมเดล
- เรียนรู้บนข้อมูลภาษาไทย (Pretraining) กว่า 65 พันล้านคำ มีการกำจัดข้อมูลภาษาไทยซ้ำซ้อนที่ใช้ในเรียนรู้ (Deduplicated Dataset) และปรับจูนให้ตอบคำถามทั่วไปภาษาไทย (Finetuning) บนมากกว่า 1 ล้านตัวอย่าง
- สามารถเข้าใจและประมวลผล บริบทของข้อมูลภาษาไทยได้ถึง 4096 คำ, ช่วยให้สามารถให้คำแนะนำที่ละเอียดและซับซ้อนได้
OpenThaiGPT มี 3 เวอร์ชันหลัก
- OpenthaiGPT 0.0.4 พูดคุย Chat ได้อยู่บ้าง แต่ยังไม่สามารถตอบคำถามได้ตรงและยังไม่สามารถทำ Few Shot Learning ได้
- OpenthaiGPT 0.1.0 แปลภาษา ไทย-อังกฤษ ได้และทำ Few Shot Learning ได้บางส่วน สามารถพูดคุย Chat ได้เต็มรูปแบบ
- OpenthaiGPT 1.0.0 สามารถทำ Few shot learningได้ แปลภาษา ไทย-อังกฤษ พูดคุย Chat ได้เต็มรูปแบบและเปิดใช้งานในปัจจุบัน
ผู้สนใจสามารถดาวน์โหลดโมเดล
- 7b – https://huggingface.co/openthaigpt/openthaigpt-0.0-7b-chat
- 7b (GGUF) – https://huggingface.co/openthaigpt/openthaigpt-0.0-7b-chat-gguf
- 13b – https://huggingface.co/openthaigpt/openthaigpt-0.0-13b-chat
- 70b – https://huggingface.co/openthaigpt/openthaigpt-0.0-70b-chat
สำหรับนักพัฒนาการทดลองใช้งานแบบ Colab Demo สามารถใช้ได้แบบในการ Load model, Finetune, Inference โดย Model Pipeline สามารถโหลดโมเดล และใช้งานโมเดลได้ผ่าน google colab
https://colab.research.google.com/drive/1w1giDWhmq3WIUCK4AISFJtGIqiPDtRSC?usp=sharing
และ สำหรับการทดลองใช้งานแบบ Web Demo สามารถทดลองได้ที่ https://openthaigpt.openservice.in.th/