ตัดคำภาษาไทยด้วย Groovy (ไม่ใช้ grails)
- by Nat
เหล้าเก่าเอามาเล่าใหม่ขวดใหม่
ผมโมดิฟาย LexTo ของ Sansarn overload method addDict โดยเพิ่ม addDict (string )
เพราะว่าก่อนหน้านี้มีแต่ addDict (File ) มันมีปัญหาเรื่อง Encoding ของ Dictionary กับ Input String ไม่ตรงกัน ตัดไม่ได้อีก เลยต้องโมดิฟายนิดหน่อย โหลดได้ที่ http://github.com/NAzT/LT (เป็น Netbeans Project ) หลังจากนั้นทำเป็น .jar (กด Build ได้เลย)
def Tokenizer = new LongLexTo(“Self”) // ใช้ constructor เป็น LongLexTo(String ) เพื่อไม่ให้มันไปโหลด Dict def input = “สวัสดีครับผม” // input string ที่ต้องการตัด Tokenizer.addDict(“สวัสดี”); // เพิ่มคำลงไปใน(จาก) Dictionary Tokenizer.addDict(“ครับ”); // เพิ่มคำลงไปใน(จาก) Dictionary Tokenizer.wordInstance(input); // จัดการตัดคำ def myIndexList=Tokenizer.getIndexList(); // ขอตำแหน่งของคำที่ตัดได้// เริ่มการแสดงผลคำที่ตัดคั่นด้วย |def longlexnews=”"def indexer=0myIndexList.eachWithIndex{ val, idx ->longlexnews+= input[indexer..val-1] + “|”indexer=val}println longlexnews
Related Blogs
เรื่องที่เกี่ยวข้อง
