ผมทำวิจัย Thai NLP ที่จุฬาฯ ปัญหาใหญ่คือ Annotated Dataset คุณภาพสูงมีน้อยมาก แต่ละมหาวิทยาลัยทำกันคนละชุด ไม่ได้ Share กัน ไม่มี Standard เดียวกัน ถ้าจะแก้ปัญหาจริงๆ ต้องมี National Thai NLP Corpus ที่ทุกคนเข้าถึงได้ มีการ Annotate อย่างเป็นระบบ ครอบคลุมหลายโดเมน
ตอนนี้มี PyThaiNLP ที่ดีมากแล้วครับ แต่ก็ยังมีข้อจำกัดหลายอย่าง โดยเฉพาะเรื่อง Social Media Text ที่คนใช้ภาษาแบบสร้างสรรค์มาก พิมพ์ผิด ใช้ Emoji ใช้คำย่อ ใช้ภาษาผสม AI ต้องเข้าใจ Sarcasm และ Meme วัฒนธรรมไทยด้วย ไม่ใช่แค่ Translate
ผมอยากเห็น Community-driven Project ที่คนไทยช่วยกัน Contribute ครับ เหมือน Hugging Face แต่สำหรับภาษาไทยโดยเฉพาะ ให้คนอัพโหลด Dataset, Pre-trained Models, Benchmarks ให้คนอื่นใช้ต่อได้ฟรี มี Leaderboard เปรียบเทียบโมเดลต่างๆ มี Documentation และ Tutorial ที่ดี ช่วยกันพัฒนาไปด้วยกัน