| OLD | NEW |
| (Empty) |
| 1 # Copyright (C) 2011-2011, International Business Machines Corporation | |
| 2 # and others. All Rights Reserved. | |
| 3 # | |
| 4 # file name: wordsegments.txt | |
| 5 # encoding: UTF-8 | |
| 6 # | |
| 7 # created on: 2011may14 | |
| 8 # created by: George Rhoten | |
| 9 # created by: Nathan Wells | |
| 10 # | |
| 11 # Word boundary test data for languages that contain no spaces. | |
| 12 # Boundaries are deliminated with the | character so that it's easier to debug. | |
| 13 # | |
| 14 # If you have test data with zero width spaces to deliminate the words, use the
following command example. | |
| 15 # Be sure to copy the zero width space in the sed command. | |
| 16 # echo 'សូមចំណាយពេលបន្តិចដើម្បីអធិស្ឋានអរព្រះគុណដល់ព្រះអង្គ' | sed 's//
\|/g' | |
| 17 # | |
| 18 | |
| 19 # Khmer | |
| 20 តើ|លោក|មក|ពី|ប្រទេស|ណា | |
| 21 សណ្ដូក|ក|បណ្ដែត|ខ្លួន | |
| 22 ពណ៌ស|ម្ដេច|ថា|ខ្មៅ | |
| 23 #ប្រយោគ|ពី|របៀប|រួបរួម|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល | |
| 24 ប្រយោគ|ពី|របៀប|ដែល|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល | |
| 25 #ប្រយោគ|ពី|របៀប|ជា|មួយ|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល | |
| 26 សូម|ចំណាយពេល|បន្តិច|ដើម្បី|អធិស្ឋាន|អរព្រះគុណ|ដល់|ព្រះអង្គ | |
| 27 ការ|ថោកទាប|បរិប្បូណ៌|ដោយ | |
| 28 ប្រើប្រាស់|ស្អាត|ទាំង|ចិត្ត|សិស្ស|នោះ | |
| 29 បើ|អ្នក|ប្រព្រឺត្ត|អំពើអាក្រក់|មុខ|ជា|មាន | |
| 30 ប្រដាប់|ប្រដា|រ|រៀនសូត្រ|បន្ទប់|រៀន | |
| 31 ដើរតួ|មនុស្សគ|ឥត|បញ្ចេញ|យោបល់|សោះ|ឡើយ | |
| 32 មិន|អាច|ឲ្យ|យើង|ធ្វើ|កសិកម្ម|បាន|ឡើយ | |
| 33 បន្ត|សេចក្ត|ទៅទៀត | |
| 34 ក្រុម|ប៉ូលិស|បណ្តាក់|គ្នា | |
| 35 គ្មាន|សុខ|សំរាន្ត|ដង|ណា | |
| 36 បាន|សុខភាព|បរិប្បូណ៌ | |
| 37 ជា|មេចោរ|ខ្ញុំ|នឹង|ស្លាប់|ទៅវិញ|ជា|មេចោរ | |
| 38 ឯ|ការ|វាយ|ផ្ចាល|ដែល|នាំ | |
| 39 គេ|ដឹក|ទៅ|សំឡាប់ | |
| 40 #អ្នក|ដែល|ជា|មន្ត្រី|ធំ|លើ|គាត់|ទេ | |
| 41 យក|ទៅ|សម្លាប់ចោល|ស្ងាត់ | |
| 42 ត្រូវ|បាន|គេ|សម្លាប់ | |
| 43 នៅក្នុង|ស្រុក|ខ្ល|ងហ្ស៊ុន | |
| 44 | |
| 45 # Thai | |
| 46 กู| |กิน|กุ้ง| |ปิ้่|งอ|ยู่|ใน|ถ้ำ | |
| 47 | |
| OLD | NEW |