Welcome to mirror list, hosted at ThFree Co, Russian Federation.

github.com/moses-smt/mosesdecoder.git - Unnamed repository; edit this file 'description' to name the repository.
summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorJeremy Gwinnup <jeremy@gwinnup.org>2013-08-16 22:39:50 +0400
committerJeremy Gwinnup <jeremy@gwinnup.org>2013-08-16 22:39:50 +0400
commita5fb4d1550a07f9d6146deab225222478d72d505 (patch)
tree206fc085fcb8ee08c63efa7aee800c028fc48e62 /scripts/share/nonbreaking_prefixes
parent51ac2d65674cc175ae7987f13e83a82ecc797403 (diff)
Fixed bug in tokenizer.perl where comma separated lists of single
characters aren't handled correctly input> A,B,C,D,E,F yielded> A, B,C , D,E , F now yields> A, B, C, D, E, F Updated Russian nonbreaking prefixes list with capital letters
Diffstat (limited to 'scripts/share/nonbreaking_prefixes')
-rw-r--r--scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ru552
1 files changed, 293 insertions, 259 deletions
diff --git a/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ru b/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ru
index 444465b35..8a9e87313 100644
--- a/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ru
+++ b/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ru
@@ -1,259 +1,293 @@
-TBD: Russian uppercase alphabet [А-Я]
-A
-B
-C
-D
-E
-F
-G
-H
-I
-J
-K
-L
-M
-N
-O
-P
-Q
-R
-S
-T
-U
-V
-W
-X
-Y
-Z
-0гг
-1гг
-2гг
-3гг
-4гг
-5гг
-6гг
-7гг
-8гг
-9гг
-0г
-1г
-2г
-3г
-4г
-5г
-6г
-7г
-8г
-9г
-Xвв
-Vвв
-Iвв
-Lвв
-Mвв
-Cвв
-Xв
-Vв
-Iв
-Lв
-Mв
-Cв
-0м
-1м
-2м
-3м
-4м
-5м
-6м
-7м
-8м
-9м
-0мм
-1мм
-2мм
-3мм
-4мм
-5мм
-6мм
-7мм
-8мм
-9мм
-0см
-1см
-2см
-3см
-4см
-5см
-6см
-7см
-8см
-9см
-0дм
-1дм
-2дм
-3дм
-4дм
-5дм
-6дм
-7дм
-8дм
-9дм
-0л
-1л
-2л
-3л
-4л
-5л
-6л
-7л
-8л
-9л
-0км
-1км
-2км
-3км
-4км
-5км
-6км
-7км
-8км
-9км
-0га
-1га
-2га
-3га
-4га
-5га
-6га
-7га
-8га
-9га
-0кг
-1кг
-2кг
-3кг
-4кг
-5кг
-6кг
-7кг
-8кг
-9кг
-0т
-1т
-2т
-3т
-4т
-5т
-6т
-7т
-8т
-9т
-0г
-1г
-2г
-3г
-4г
-5г
-6г
-7г
-8г
-9г
-0мг
-1мг
-2мг
-3мг
-4мг
-5мг
-6мг
-7мг
-8мг
-9мг
-бульв
-вв
-га
-гг
-гл
-гос
-дм
-доп
-др
-ед
-ед
-зам
-инд
-исп
-Исп
-кап
-кг
-кв
-кл
-км
-кол
-комн
-коп
-куб
-лиц
-лл
-макс
-мг
-мин
-мл
-млн
-млрд
-мм
-наб
-нач
-неуд
-ном
-обл
-обр
-общ
-ок
-ост
-отл
-п
-пер
-перераб
-пл
-пос
-пр
-просп
-проф
-ред
-руб
-сб
-св
-см
-соч
-ср
-ст
-стр
-тел
-Тел
-тех
-тт
-туп
-тыс
-уд
-ул
-уч
-физ
-хор
-чел
-шт
-экз
+# added Cyrillic uppercase letters [А-Я]
+# removed 000D carriage return (this is not removed by chomp in tokenizer.perl, and prevents recognition of the prefixes)
+# edited by Kate Young (nspaceanalysis@earthlink.net) 21 May 2013
+A
+B
+C
+D
+E
+F
+G
+H
+I
+J
+K
+L
+M
+N
+O
+P
+Q
+R
+S
+T
+U
+V
+W
+X
+Y
+Z
+0гг
+1гг
+2гг
+3гг
+4гг
+5гг
+6гг
+7гг
+8гг
+9гг
+0г
+1г
+2г
+3г
+4г
+5г
+6г
+7г
+8г
+9г
+Xвв
+Vвв
+Iвв
+Lвв
+Mвв
+Cвв
+Xв
+Vв
+Iв
+Lв
+Mв
+Cв
+0м
+1м
+2м
+3м
+4м
+5м
+6м
+7м
+8м
+9м
+0мм
+1мм
+2мм
+3мм
+4мм
+5мм
+6мм
+7мм
+8мм
+9мм
+0см
+1см
+2см
+3см
+4см
+5см
+6см
+7см
+8см
+9см
+0дм
+1дм
+2дм
+3дм
+4дм
+5дм
+6дм
+7дм
+8дм
+9дм
+0л
+1л
+2л
+3л
+4л
+5л
+6л
+7л
+8л
+9л
+0км
+1км
+2км
+3км
+4км
+5км
+6км
+7км
+8км
+9км
+0га
+1га
+2га
+3га
+4га
+5га
+6га
+7га
+8га
+9га
+0кг
+1кг
+2кг
+3кг
+4кг
+5кг
+6кг
+7кг
+8кг
+9кг
+0т
+1т
+2т
+3т
+4т
+5т
+6т
+7т
+8т
+9т
+0г
+1г
+2г
+3г
+4г
+5г
+6г
+7г
+8г
+9г
+0мг
+1мг
+2мг
+3мг
+4мг
+5мг
+6мг
+7мг
+8мг
+9мг
+бульв
+вв
+га
+гг
+гл
+гос
+дм
+доп
+др
+ед
+ед
+зам
+инд
+исп
+Исп
+кап
+кг
+кв
+кл
+км
+кол
+комн
+коп
+куб
+лиц
+лл
+макс
+мг
+мин
+мл
+млн
+млрд
+мм
+наб
+нач
+неуд
+ном
+обл
+обр
+общ
+ок
+ост
+отл
+п
+пер
+перераб
+пл
+пос
+пр
+просп
+проф
+ред
+руб
+сб
+св
+см
+соч
+ср
+ст
+стр
+тел
+Тел
+тех
+тт
+туп
+тыс
+уд
+ул
+уч
+физ
+хор
+чел
+шт
+экз