Index: source/test/testdata/wordsegments.txt |
diff --git a/source/test/testdata/wordsegments.txt b/source/test/testdata/wordsegments.txt |
deleted file mode 100644 |
index 3ea29f7e4e2c82514c5eee685012f77c549daf4f..0000000000000000000000000000000000000000 |
--- a/source/test/testdata/wordsegments.txt |
+++ /dev/null |
@@ -1,47 +0,0 @@ |
-# Copyright (C) 2011-2011, International Business Machines Corporation |
-# and others. All Rights Reserved. |
-# |
-# file name: wordsegments.txt |
-# encoding: UTF-8 |
-# |
-# created on: 2011may14 |
-# created by: George Rhoten |
-# created by: Nathan Wells |
-# |
-# Word boundary test data for languages that contain no spaces. |
-# Boundaries are deliminated with the | character so that it's easier to debug. |
-# |
-# If you have test data with zero width spaces to deliminate the words, use the following command example. |
-# Be sure to copy the zero width space in the sed command. |
-# echo 'សូមចំណាយពេលបន្តិចដើម្បីអធិស្ឋានអរព្រះគុណដល់ព្រះអង្គ' | sed 's//\|/g' |
-# |
- |
-# Khmer |
-តើ|លោក|មក|ពី|ប្រទេស|ណា |
-សណ្ដូក|ក|បណ្ដែត|ខ្លួន |
-ពណ៌ស|ម្ដេច|ថា|ខ្មៅ |
-#ប្រយោគ|ពី|របៀប|រួបរួម|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល |
-ប្រយោគ|ពី|របៀប|ដែល|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល |
-#ប្រយោគ|ពី|របៀប|ជា|មួយ|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល |
-សូម|ចំណាយពេល|បន្តិច|ដើម្បី|អធិស្ឋាន|អរព្រះគុណ|ដល់|ព្រះអង្គ |
-ការ|ថោកទាប|បរិប្បូណ៌|ដោយ |
-ប្រើប្រាស់|ស្អាត|ទាំង|ចិត្ត|សិស្ស|នោះ |
-បើ|អ្នក|ប្រព្រឺត្ត|អំពើអាក្រក់|មុខ|ជា|មាន |
-ប្រដាប់|ប្រដា|រ|រៀនសូត្រ|បន្ទប់|រៀន |
-ដើរតួ|មនុស្សគ|ឥត|បញ្ចេញ|យោបល់|សោះ|ឡើយ |
-មិន|អាច|ឲ្យ|យើង|ធ្វើ|កសិកម្ម|បាន|ឡើយ |
-បន្ត|សេចក្ត|ទៅទៀត |
-ក្រុម|ប៉ូលិស|បណ្តាក់|គ្នា |
-គ្មាន|សុខ|សំរាន្ត|ដង|ណា |
-បាន|សុខភាព|បរិប្បូណ៌ |
-ជា|មេចោរ|ខ្ញុំ|នឹង|ស្លាប់|ទៅវិញ|ជា|មេចោរ |
-ឯ|ការ|វាយ|ផ្ចាល|ដែល|នាំ |
-គេ|ដឹក|ទៅ|សំឡាប់ |
-#អ្នក|ដែល|ជា|មន្ត្រី|ធំ|លើ|គាត់|ទេ |
-យក|ទៅ|សម្លាប់ចោល|ស្ងាត់ |
-ត្រូវ|បាន|គេ|សម្លាប់ |
-នៅក្នុង|ស្រុក|ខ្ល|ងហ្ស៊ុន |
- |
-# Thai |
-กู| |กิน|กุ้ง| |ปิ้่|งอ|ยู่|ใน|ถ้ำ |
- |