ทั่วไป

ทำไมเครื่องมือ AI ภาษาไทยยังห่างจากภาษาอังกฤษขนาดนี้?

แแบงค์ DataSci

8 ก.พ. 2569

221

ลองใช้ ChatGPT Gemini หรือ AI อื่นๆ ถามเป็นภาษาไทยดูสิ คำตอบที่ได้มักจะไม่ Natural ไม่เข้าใจ Context ทางวัฒนธรรม แปลศัพท์ผิด หรือใช้คำที่ไม่มีใครพูดกัน แถมยังมีปัญหาเรื่องการตัดคำ (Tokenization) การแยกประโยค การวิเคราะห์อารมณ์ และการเข้าใจภาษาพูดที่ไม่เป็นทางการ ปัญหาพื้นฐานคือภาษาไทยไม่มีช่องว่างระหว่างคำ มี Tonal Variation คำพ้องความหมายเยอะ และมีการใช้ภาษาผสมผสานระหว่างไทย-อังกฤษ ภาษาถิ่น และ Slang มากมาย ทำให้ NLP สำหรับภาษาไทยทำได้ยากกว่าภาษาอังกฤษมาก และมี Training Data คุณภาพสูงน้อยกว่ามาก ผมคิดว่าถึงเวลาแล้วที่คนไทยต้องร่วมมือกันสร้าง Open Source Thai NLP Tools ที่ดีจริงๆ ไม่ว่าจะเป็น Thai Word Tokenizer, Thai Sentiment Analysis, Thai Text Summarization, Thai Speech Recognition ที่เข้าใจภาษาถิ่น และ Thai Language Model ที่เข้าใจ Context ไทยๆ ไม่ใช่แค่แปลจากอังกฤษ

คำตอบ(3)

ณณัฐ วิศวกร8 ก.พ. 2569

ผมทำวิจัย Thai NLP ที่จุฬาฯ ปัญหาใหญ่คือ Annotated Dataset คุณภาพสูงมีน้อยมาก แต่ละมหาวิทยาลัยทำกันคนละชุด ไม่ได้ Share กัน ไม่มี Standard เดียวกัน ถ้าจะแก้ปัญหาจริงๆ ต้องมี National Thai NLP Corpus ที่ทุกคนเข้าถึงได้ มีการ Annotate อย่างเป็นระบบ ครอบคลุมหลายโดเมน

สสมชาย ดีไซน์9 ก.พ. 2569

ตอนนี้มี PyThaiNLP ที่ดีมากแล้วครับ แต่ก็ยังมีข้อจำกัดหลายอย่าง โดยเฉพาะเรื่อง Social Media Text ที่คนใช้ภาษาแบบสร้างสรรค์มาก พิมพ์ผิด ใช้ Emoji ใช้คำย่อ ใช้ภาษาผสม AI ต้องเข้าใจ Sarcasm และ Meme วัฒนธรรมไทยด้วย ไม่ใช่แค่ Translate

ขขวัญ เชียงใหม่9 ก.พ. 2569

ผมอยากเห็น Community-driven Project ที่คนไทยช่วยกัน Contribute ครับ เหมือน Hugging Face แต่สำหรับภาษาไทยโดยเฉพาะ ให้คนอัพโหลด Dataset, Pre-trained Models, Benchmarks ให้คนอื่นใช้ต่อได้ฟรี มี Leaderboard เปรียบเทียบโมเดลต่างๆ มี Documentation และ Tutorial ที่ดี ช่วยกันพัฒนาไปด้วยกัน