वीर

22 กุมภาพันธ์ 2008

การแปลภาษาไทย - อังกฤษโดยใช้สถิติ

การแปลภาษาโดยใช้สถิติ เดี๋ยวนี้มีโปรแกรม open source ให้ download กันมาใช้แล้ว. เช่น GIZA++ ที่เอาไว้เตรียม model และ Moses ที่เอาไว้แปล (decode). โดยใช้งานตาม diagram ข้างล่าง.

smt_flow.png

สิ่งที่เหมือนขาดไปคือ “โปรแกรมตัดประโยคภาษาไทย”. แต่ถ้าจะแปลอังกฤษเป็นไทยก็มีนะ. และคลังข้อความขนานที่มันใหญ่พอ.

15 กุมภาพันธ์ 2008

เครื่องจักรแปลภาษางุงิกับภาษาไทย

ภาษางุงิเป็นภาษาที่เด็กๆ และวัยรุ่นไทยนิยมใช้สื่อสารกัน. ภาษางุงิพูดเขียนคล้ายๆภาษาไทย และยืมอักษรภาษาไทยไปใช้ อย่างไรก็ตามการใช้คำแบบคำแตกต่างกันอย่างมาก. มากไปกว่านั้นการสะกดคำยังแตกต่างกันอีกด้วย. ยกตัวอย่างเช่น “งับๆ” ในภาษางุงิแปลเป็นภาษาไทยได้ว่า “ครับๆ”.

อย่างไรก็ตามภาษางุงิไม่ได้ใช้เป็นภาษาราชการของประเทศใดๆ มากไปกว่านั้นยังใช้เฉพาะในกลุ่มเด็กและเยาวชน จึงทำให้เยาวชนจำเป็นต้องเรียนภาษาอื่นๆ เช่น ภาษาไทย เพิ่มเติมขึ้นจากภาษางุงิ ฯลฯ. มากไปกว่านั้นคนไทยทั่วไปก็อาจจะอยากทราบว่าข้อความภาษางุงิเขียนว่าอะไร.

ดังนั้นเราจึงข้อเสนอโครงการสร้างเครื่องจักรแปลภาษางุงิเป็นภาษาไทยและภาษาไทยเป็นภาษางุง. ซึ่งในช่วงแรกจะเริ่มจากการสร้างพจนานุกรมไทย - งุงิ กันก่อน. … จะสร้างอย่างไรดี?

หน้าต่อไป »

บลอกที่ WordPress.com .