Welcome to mirror list, hosted at ThFree Co, Russian Federation.

github.com/moses-smt/mosesdecoder.git - Unnamed repository; edit this file 'description' to name the repository.
summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorHieu Hoang <hieuhoang@gmail.com>2014-01-05 18:07:28 +0400
committerHieu Hoang <hieuhoang@gmail.com>2014-01-05 18:07:28 +0400
commita8cb0f7f13d153f9e78d215f35a84a093f89be68 (patch)
tree64549ae2fa25261240b8ad47e156c510233315e3 /scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ta
parent9af5c12aa2fd50ab9003135b8b39447f222d4f10 (diff)
Tamil tokenization /P.Arththika
Diffstat (limited to 'scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ta')
-rw-r--r--scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ta276
1 files changed, 276 insertions, 0 deletions
diff --git a/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ta b/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ta
new file mode 100644
index 000000000..a138e69bd
--- /dev/null
+++ b/scripts/share/nonbreaking_prefixes/nonbreaking_prefix.ta
@@ -0,0 +1,276 @@
+#Anything in this file, followed by a period (and an upper-case word), does NOT indicate an end-of-sentence marker.
+#Special cases are included for prefixes that ONLY appear before 0-9 numbers.
+
+#any single upper case letter followed by a period is not a sentence ender (excluding I occasionally, but we leave it in)
+#usually upper case letters are initials in a name
+அ
+ஆ
+இ
+ஈ
+உ
+ஊ
+எ
+ஏ
+ஐ
+ஒ
+ஓ
+ஔ
+ஃ
+க
+கா
+கி
+கீ
+கு
+கூ
+கெ
+கே
+கை
+கொ
+கோ
+கௌ
+க்
+ச
+சா
+சி
+சீ
+சு
+சூ
+செ
+சே
+சை
+சொ
+சோ
+சௌ
+ச்
+ட
+டா
+டி
+டீ
+டு
+டூ
+டெ
+டே
+டை
+டொ
+டோ
+டௌ
+ட்
+த
+தா
+தி
+தீ
+து
+தூ
+தெ
+தே
+தை
+தொ
+தோ
+தௌ
+த்
+ப
+பா
+பி
+பீ
+பு
+பூ
+பெ
+பே
+பை
+பொ
+போ
+பௌ
+ப்
+ற
+றா
+றி
+றீ
+று
+றூ
+றெ
+றே
+றை
+றொ
+றோ
+றௌ
+ற்
+ய
+யா
+யி
+யீ
+யு
+யூ
+யெ
+யே
+யை
+யொ
+யோ
+யௌ
+ய்
+ர
+ரா
+ரி
+ரீ
+ரு
+ரூ
+ரெ
+ரே
+ரை
+ரொ
+ரோ
+ரௌ
+ர்
+ல
+லா
+லி
+லீ
+லு
+லூ
+லெ
+லே
+லை
+லொ
+லோ
+லௌ
+ல்
+வ
+வா
+வி
+வீ
+வு
+வூ
+வெ
+வே
+வை
+வொ
+வோ
+வௌ
+வ்
+ள
+ளா
+ளி
+ளீ
+ளு
+ளூ
+ளெ
+ளே
+ளை
+ளொ
+ளோ
+ளௌ
+ள்
+ழ
+ழா
+ழி
+ழீ
+ழு
+ழூ
+ழெ
+ழே
+ழை
+ழொ
+ழோ
+ழௌ
+ழ்
+ங
+ஙா
+ஙி
+ஙீ
+ஙு
+ஙூ
+ஙெ
+ஙே
+ஙை
+ஙொ
+ஙோ
+ஙௌ
+ங்
+ஞ
+ஞா
+ஞி
+ஞீ
+ஞு
+ஞூ
+ஞெ
+ஞே
+ஞை
+ஞொ
+ஞோ
+ஞௌ
+ஞ்
+ண
+ணா
+ணி
+ணீ
+ணு
+ணூ
+ணெ
+ணே
+ணை
+ணொ
+ணோ
+ணௌ
+ண்
+ந
+நா
+நி
+நீ
+நு
+நூ
+நெ
+நே
+நை
+நொ
+நோ
+நௌ
+ந்
+ம
+மா
+மி
+மீ
+மு
+மூ
+மெ
+மே
+மை
+மொ
+மோ
+மௌ
+ம்
+ன
+னா
+னி
+னீ
+னு
+னூ
+னெ
+னே
+னை
+னொ
+னோ
+னௌ
+ன்
+
+
+#List of titles. These are often followed by upper-case names, but do not indicate sentence breaks
+திரு
+திருமதி
+வண
+கௌரவ
+
+
+#misc - odd period-ending items that NEVER indicate breaks (p.m. does NOT fall into this category - it sometimes ends a sentence)
+உ.ம்
+#கா.ம்
+#எ.ம்
+
+
+#Numbers only. These should only induce breaks when followed by a numeric sequence
+# add NUMERIC_ONLY after the word for this function
+#This case is mostly for the english "No." which can either be a sentence of its own, or
+#if followed by a number, a non-breaking prefix
+No #NUMERIC_ONLY#
+Nos
+Art #NUMERIC_ONLY#
+Nr
+pp #NUMERIC_ONLY#