วันจันทร์, พฤศจิกายน 20, 2006

เว้นวรรคตอนที่ ๑ บทนำ

วลี เว้นวรรค กลายเป็นวลียอดฮิตในช่วง ๑ ปีที่ผ่านมา...

แต่บล็อกนี้คงไม่ได้กล่าวถึงเรื่องเว้นวรรคในความหมายพิเศษนั้น เพราะใคร ๆ ต่างเว้นวรรคกันมากมาย... จะยกเว้นก็อยู่แค่ภาษาไทยซึ่งเป็นภาษาไม่ค่อยเว้นวรรค

ตอนเด็ก ๆ เคยสังเกตกันบ้างไหมว่าภาษาไทยต่างจากภาษาอังกฤษอยู่อย่างหนึ่งก็คือเป็นภาษาที่ไม่ได้เว้นวรรคระหว่างคำ บางคนอาจจะร้องอ๋อ แต่ผมไม่เคยสังเกตเรื่องนี้เลย

นั่นแมวนี่

That is a cat.

ตัวอย่างประโยคง่าย ๆ ข้างบนคงจะทำให้พอเห็นภาพความแตกต่างระหว่างภาษาไทยกับภาษาอังกฤษ ภาษาของชาวเอเชียส่วนใหญ่จะใช้การเว้นวรรคในการแบ่งประโยค ส่วนภาษาทางยุโรปจะใช้การเว้นวรรคในการแบ่งคำและแบ่งประโยคด้วยการใช้มหัพภาค (ถนัดเรียกจุดฟูลสต็อปมากกว่าแฮะ)

จำไม่ได้ว่ารู้เรื่องนี้ครั้งแรกเมื่อไหร่ น่าจะเป็นตอนทำยุคที่ทำเว็บภาษาไทย จำได้ว่าเนคเทคเปิดเว็บให้ตัดคำ ผมไม่เคยส่งไปตัดหรอก เพราะสักพักไมโครซอฟท์ออกบราวเซอร์ที่สามารถตัดคำที่ทำให้ผู้ใช้และนักพัฒนาใช้กันอย่างงอมแงมด้วยความชุ่ยอย่างไอ้อี (ไม่สุภาพเลย) ผมเลยไม่ได้ใส่ใจว่าการตัดคำไม่เป็นมันจะเป็นปัญหาอย่างใดนัก

แต่ด้วยความผูกขาดขอไอ้อีทำให้กลายเป็นเป้าหมายของแครกเกอร์ทั่วโลกที่มุ่งร้ายกับคนใช้คอมพิวเตอร์นิกายพหุบัญชรที่มีรูโหว่เยอะเหลือเกิน บราวเซอร์ทางเลือกจึงกลับมาเป็นที่สนใจของโลกอีกครั้ง แน่นอนว่ามันไม่ได้สมบูรณ์ไปซะทุกอย่าง มันมีปัญหาอย่างการไม่รู้จักภาษาไทยเข้ามาอีกด้วย

บราวเซอร์อย่างหมาย่างหรืออุปรากรนั้น ไม่ได้ไม่สามารถแสดงผลภาษาไทยไม่ได้ แต่หมาย่างตัดคำไม่เป็น

ตัดคำยากยังไง

จริง ๆ แรงบันดาลใจที่อยากจะเขียนบล็อกเกี่ยวกับเรื่องนี้ก็เพราะได้ดูรายการเกี่ยวกับสุขภาพพูดถึงอาการทางประสาทอย่างหนึ่ง ซึ่งมีผลทำให้คนอ่านหนังสือไม่ออก

เด็กบางคนจะมีปัญหากับการอ่านหนังสือภาษาไทย เพราะแยกคำออกจากประโยคไม่ได้ พอแยกคำไม่ได้ก็ไม่สามารถนำเอาคำมาตีความหมายได้ ทำให้อ่านหนังสือไม่ออก พ่อ แม่ หรือ อาจารย์ ควรจะช่วยโดยการใช้มาร์กเกอร์ช่วยตัดคำให้เด็กก่อนส่งให้ฝึกอ่านนั่นเอง

นี่อาจจะแสดงให้เห็นแล้วว่าการตัดคำนั้นไม่ได้เป็นกระบวนการที่ง่ายอย่างที่หลายคนคิด (อย่างน้อยก็เด็กที่มีปัญหา) เพราะต้องใช้สมองที่ผ่านการฝึกฝนในระดับหนึ่งนั่นเอง

แน่นอนคอมพิวเตอร์โง่กว่าเด็กพวกนั้นอีก เพราะคิดเองไม่เป็น และต้องการการสั่งสอนจากโปรแกรมเมอร์นั่นเอง

ตัดคำบนคอมฯ

ผมเดาเอาเองว่าปัญหาการตัดคำภาษาไทยนั้นเป็นปัญหามาตั้งแต่ที่ความพยายามพิมพ์เอกสารภาษาไทยด้วยคอมพิวเตอร์ ประโยคที่อยู่ปริ่ม ๆ บรรทัด จะถูกตัดตอนลงมาอีกบรรทัดหนึ่งได้หรือไม่ก็ขึ้นอยู่กับการที่โปรแกรมที่เราพิมพ์อยู่นั้นจะตัดลงมาให้หรือไม่ ถ้าไม่ตัดลงมามันก็จะเลยออกไปเกินขอบกระดาษจริงไหม

ผมเกิดมาในยุคที่ไม่เจอปัญหาอย่างนั้นแล้ว เพราะว่าไมโครซอฟท์เวิร์ดมันก็ตัดให้ ด้วยความสามารถของไลบราลี แม้กระทั่งโน้ตแพดของนิกายเดียกันก็ยังตัดคำภาษาไทยเป็น แต่คิดว่าเวิร์ดจุฬาฯ หรือเวิร์ดราชวิถีสมัยนั้นก็คงเจอปัญหานี้เหมือนกัน (เคยใช้แต่ไม่เคยสังเกตแฮะ)

อย่างที่บอกว่าพอได้มาคลุกคลีกับคอมพิวเตอร์ก็เริ่มเจอปัญหาการตัดคำทั้งในบราวเซอร์เองหรือว่าในโปรแกรมเรียงพิมพ์อย่าง LaTeX ที่ตัดคำเองไม่เป็นต้องอาศัยโปรแกรมภายนอกอย่าง ctTeX หรือ SWATH มาช่วยตัดคำ

(อยู่คณะมาหลายปีก็เพิ่งรู้ว่า ctTeX มาจาก tTeX ที่อาจารย์ มานพ วงศ์สายสุวรรณ เป็นคนแรกที่พัฒนานั่นเอง ผ่าง ๆ)

รู้จักหมาย่างที่ฉลาดตัดคำภาษาไทยได้ครั้งแรกจากบล็อกของคุณฮุ้ยที่เป็นคนทำ ctTeX เพราะเค้าเป็นคนเอาหมาย่างมาปั่นรวมกับ ctTeX ออกมาให้ใช้กันสำหรับศิษย์สำนักพหุบัญชร (สำนักเพนกวินมีใช้กันมาได้สักพักหนึ่งก่อนหน้านั้นแล้ว) ยังมีอีกตัวหนึ่งที่คุณสัมพันธ์ได้ปั่นหมาย่างรวมกับ SWATH ออกมาเหมือนกัน แต่ออกช้าเหลือเกินไม่ทันกินเท่าไหร่ เลยชอบของคุณฮุ้ยมากกว่า

ส่วนเรื่องตัดคำใน LaTeX พัฒนาช้ามาก ๆ เพราะว่าไม่ค่อยมีคนใช้นั่นเอง

แม้ว่าปัญหาการตัดคำจะถูกแก้โดยเหล่าโปรแกรมเมอร์ปิดทองหลังพระหลายท่าน แต่ปัญหาหนึ่งที่ทุกคนคงจะเจอก็คือเวลาหาข้อมูลในกูเกิ้ล ใส่ไปประโยคหนึ่งมันหาไม่เจอ ต้องเว้นวรรคแต่ละคำในประโยคด้วยเว้นวรรคกูเกิ้ลถึงจะหาเจอ

แน่นอน !

กูเกิ้ลก็ตัดคำไม่เป็นเช่นกัน และกูเกิ้ลก็ยังไม่สนใจที่จะตัดคำให้ซะด้วย (เพราะมันเป็นเรื่องที่ไม่ง่ายนัก และทำให้คนใช้น้อยอย่างในประเทศไทยแบบนี้มันไม่คุ้ม)

การแก้ปัญหาที่ไม่ตรงจุดทำให้ปัญหาจริง ๆ ยังไม่ถูกแก้ไขสักที

ปัญหาคือตัวภาษาไทยเองนั่นแหละ

ต่อ ไป นี้ เรา มา เขียน ภาษาไทย กัน แบบ นี้ ดี ไหม.

ไม่ดีชัวร์ !

ตอนต่อไปจะขอเสนอแนวทางในการการแก้ปัญหาอย่างยั่งยืน...