Index: source/test/testdata/rbbitst.txt |
diff --git a/source/test/testdata/rbbitst.txt b/source/test/testdata/rbbitst.txt |
index 949d51d8140e27ebea13f2674f9d1ba546d51ac1..4433863e35814ee9e35c3a46e28ac217ff1bd090 100644 |
--- a/source/test/testdata/rbbitst.txt |
+++ b/source/test/testdata/rbbitst.txt |
@@ -1,4 +1,4 @@ |
-# Copyright (c) 2001-2013 International Business Machines |
+# Copyright (c) 2001-2014 International Business Machines |
# Corporation and others. All Rights Reserved. |
# |
# RBBI Test Data |
@@ -33,11 +33,10 @@ |
# Temp debugging tests |
-<word> |
-<data>•Isn't<200></data> |
-<char> |
-<data>•\U00010020•\U00010000\N{COMBINING MACRON}•</data> |
+<sent> |
+<data>•\u00c0.•</data> |
+#<data>•\u5487\u67ff\ue591\u5017\u61b3\u60a1\u9510\u8165:"JAVA\u821c\u8165\u7fc8\u51ce\u306d,\u2494\u56d8\u4ec0\u60b1\u8560\u51ba\u611d\u57b6\u2510\u5d46".\u2029•</data> |
######################################################################################## |
# |
# |
@@ -179,8 +178,8 @@ |
<data>•芽キャベツ<400>芽キャベツ<400></data> |
# more Japanese tests |
-# TODO: Currently, U+30FC and other characters (script=common) in the Hiragana |
-# and the Katakana block are not treated correctly. Enable this later. |
+# TODO: some script=common characters in the Hiragana and the Katakana block may not be treated correctly |
+# (was formerly true for U+30FC); need to check and fix if so. |
#<data>•どー<400>せ<400>日本語<400>を<400>勉強<400>する<400>理由<400>について<400> •て<400>こと<400>は<400>我<400>でも<400>知<400>ら<400>も<400>い<400>こと<400>なん<400>だ<400>。•</data> |
<data>•日本語<400>を<400>勉強<400>する<400>理由<400>について<400> •て<400>こと<400>は<400>我<400>でも<400>知<400>ら<400>も<400>い<400>こと<400>なん<400>だ<400>。•</data> |
@@ -593,7 +592,9 @@ What is the proper use of the abbreviation pp.? •Yes, I am definatelly 12" tal |
<data>•123 •Start •with •a •number.•</data> |
<data>•'•start •with •a •case-•ignorable •cha'r'a'cter•</data> |
- |
+<data>•' '' •start •with •case-•ignorable & •case-•insensitive •cha'r'a'cter•</data> |
+<data>• ''•aaa' •bbb '•ccc' '•ddd''' '''•eee '''•fff''' •ggg ''•</data> |
+# Note: apostrophe is case-ignorable. space is not cased. |
########################################################################################## |
# |
@@ -691,6 +692,18 @@ Bangkok)•</data> |
<data>•ใช•มั้ย•</data> |
<data>•มั๊ยล่ะ•ที่รัก•</data> |
+# Test for #10593 |
+<line> |
+<data>•เล่น•ผ่าน•ทาง•บลูทูธ•บน•อุปกรณ์•</data> |
+ |
+# Test for city names #10691 |
+<line> |
+<data>•ไป•ที่•ซานฟรานซิสโก•</data> |
+ |
+# Test for #10630, #10631 |
+<line> |
+<data>•แท็ก•แอปพลิเคชัน•เป็น•พิเศษ•</data> |
+ |
########################################################################################## |
# |
# Lao Tests |
@@ -706,6 +719,19 @@ Bangkok)•</data> |
########################################################################################## |
# |
+# Burmese/Myanmar Tests |
+# |
+########################################################################################## |
+<locale en> |
+# Basic sanity check for #10326 (some text from http://www.unicode.org/udhr/d/udhr_mya.txt) |
+<line> |
+<data>•လူ•တိုင်း•သည် •တူညီ •လွတ်လပ်•သော •ဂုဏ်•သိ•က္•ခါ•ဖြ•င့် •လည်းကောင်း၊ •</data> |
+<data>•တူညီ•လွတ်လပ်•သော •အ•ခွ•င့်•အရေး•များ•ဖြ•င့် •လည်းကောင်း၊ •မွေး•ဖွား•လာ•သူများ •ဖြစ်သည်။•</data> |
+<data>•ထို•သူ•တို့၌ •ပိုင်းခြား •ဝေဖန်•တတ်•သော •ဉာဏ်•နှ•င့် •ကျ•င့်•ဝတ် •သိတတ်•သော •စိတ်•တို့•ရှိ•ကြ၍ •</data> |
+<data>•ထို•သူ•တို့သည် •အချင်းချင်း •မေတ္တာ•ထား၍ •ဆက်ဆံ•ကျ•င့်•သုံး•</data> |
+ |
+########################################################################################## |
+# |
# Khmer Tests |
# |
########################################################################################## |
@@ -796,6 +822,8 @@ Bangkok)•</data> |
<data>•私<400>達<400>に<400>一<400>〇<400>〇〇<400>の<400>コンピュータ<400>が<400>ある<400>。<0>奈々<400>は<400>ワード<400>で<400>ある<400>。•</data> |
# The following test is for #10300 |
<data>•例えば<400>オーストラリア<400>。•</data> |
+# The following test is for #10571 |
+<data>•一部<400>の<400>地域<400>では<400>、<0>ブラジル<400>、<0>インドネシア<400>、<0>オーストリア<400>、<0>ニュージーランド<400>で<400>ある<400>。•</data> |
# UBreakIteratorType UBRK_SENTENCE, Locale "el" |
# Add break after Greek question mark (cldrbug #2069). |
@@ -822,7 +850,7 @@ Bangkok)•</data> |
<locale en_US_POSIX> |
<word> |
-<data>•Can't<200> •have<200> •breaks<200> •in<200> •xx:yy<200> •or<200> •struct<200>.•field<200> \ |
+<data>•Can't<200> •have<200> •breaks<200> •in<200> •xx<200>:•yy<200> •or<200> •struct<200>.•field<200> \ |
•for<200> •CS<200>-•types<200>.•</data> |
<data>•\u06c9<200>\uc799\ufffa•</data> |
<data>•\uFF92\uFF76\uFF9E<400> •</data> |