From 4b92f63560a2688a1cbfb8d92864f5767b5839bf Mon Sep 17 00:00:00 2001 From: Corneliu Cofaru Date: Tue, 23 Oct 2018 11:13:15 +0200 Subject: [PATCH 1/2] Initial commit adding support for Romanian --- data/articles/Romanian.txt | 19 ++ data/definite_articles/Romanian.txt | 0 data/indefinite_articles/Romanian.txt | 8 + data/prepositions/Romanian.txt | 19 ++ data/pronouns/Romanian.txt | 257 ++++++++++++++++++++++++++ data/stopwords/Romanian.txt | 101 ++++++++++ 6 files changed, 404 insertions(+) create mode 100644 data/articles/Romanian.txt create mode 100644 data/definite_articles/Romanian.txt create mode 100644 data/indefinite_articles/Romanian.txt create mode 100644 data/prepositions/Romanian.txt create mode 100644 data/pronouns/Romanian.txt create mode 100644 data/stopwords/Romanian.txt diff --git a/data/articles/Romanian.txt b/data/articles/Romanian.txt new file mode 100644 index 0000000..421d9ae --- /dev/null +++ b/data/articles/Romanian.txt @@ -0,0 +1,19 @@ +a +aceea +aceia +acel +ai +ale +aoalea +cea +cei +cel +cele +lui +nişte +o +un +unei +unor +unui +unul \ No newline at end of file diff --git a/data/definite_articles/Romanian.txt b/data/definite_articles/Romanian.txt new file mode 100644 index 0000000..e69de29 diff --git a/data/indefinite_articles/Romanian.txt b/data/indefinite_articles/Romanian.txt new file mode 100644 index 0000000..733a4b8 --- /dev/null +++ b/data/indefinite_articles/Romanian.txt @@ -0,0 +1,8 @@ +lui +nişte +o +un +unei +unor +unui +unul \ No newline at end of file diff --git a/data/prepositions/Romanian.txt b/data/prepositions/Romanian.txt new file mode 100644 index 0000000..e106bdb --- /dev/null +++ b/data/prepositions/Romanian.txt @@ -0,0 +1,19 @@ +asupra +contra +datorită +de către +de după +deasupra +despre +după +graţie +la +lângă +mulţumită +până la +să +împotriva +împrejurul +în +înaintea +îndărătul \ No newline at end of file diff --git a/data/pronouns/Romanian.txt b/data/pronouns/Romanian.txt new file mode 100644 index 0000000..fab4fd8 --- /dev/null +++ b/data/pronouns/Romanian.txt @@ -0,0 +1,257 @@ +a cui +a câta +acasta +acea +aceasta +această +aceea +aceeaşi +acei +aceia +aceiaşi +acel +acela +acelaşi +acele +acelea +aceleaşi +acelei +aceleia +aceleiaşi +acelor +acelora +aceloraşi +acelui +aceluia +aceluiaşi +acest +aceste +acestea +acestei +acesteia +acestor +acestora +acestuia +aceşti +aceştia +ai cui +al cui +al câtălea +ale cui +alt +alta +altceva +altcineva +alte +altei +alteia +altele +altor +altora +altui +altuia +altul +altă +alţi +alţii +atât +care +careva +ce +cealaltă +ceea ce +cei ce +ceilalţi +cel ce +cel fel de +cele ce +celei ce +celeilalte +celelalte +celor ce +celorlalte +celorlalţi +celui ce +celuilalt +celălalt +ceva +cine +cineva +cui +cutare +cutărei +cutăreia +cutăror +cutărora +cutărui +cutăruia +cât +câte +câtor +câtora +câtva +câtă +câţi +cărei +căreia +căror +cărora +cărui +căruia +d-ei +d-lor +d-lui +d-sa +d-sale +d-ta +d-tale +d-voastră +domnia sa +domnia ta +domnia voastră +dumisale +dumitale +dumneaei +dumnealor +dumnealui +dumneasa +dumneata +dumneavoastră +dv +dvs +dânsa +dânsei +dânsele +dânselor +dânsul +dânsului +dânşii +dânşilor +ea +ei +el +ele +eu +fiecare +fiece +fiecine +fiecărei +fiecăreia +fiecărui +fiecăruia +i +l +le +li +lor +lui +maria sa +maria ta +maria voastra +mariile noastre +mariile voastre +mea +mei +mele +meu +mi +mie +mine +mă +ne +ni +niciuna +niciuneia +niciunele +niciunii +niciunora +niciunuia +niciunul +nimeni +nimic +noastre +noastră +noi +nostru +nouă +noştri +o +oarecare +oricare +orice +oricine +oricât +oricărei +oricăreia +oricăror +oricărora +oricărui +oricăruia +oriscăruia +orişcare +orişcărui +orişice +orişicine +orişicărei +orişicăreia +orişicăror +orişicărora +pe cine +sa +sale +se +sie +sine +săi +său +ta +tale +te +tine +tu +tu! +tăi +tău +un +una +unei +uneia +unele +unii +unor +unora +unuia +unul +vi +voastre +voastră +voi +voi! +vostru +vouă +voştri +vreo +vreun +vreuna +vreunei +vreuneia +vreunele +vreunii +vreunor +vreunora +vreunui +vreunuia +vreunul +vă +îi +îl +îmi +însa +însele +însul +înşii +îşi +îţi +şi +ţi +ţie \ No newline at end of file diff --git a/data/stopwords/Romanian.txt b/data/stopwords/Romanian.txt new file mode 100644 index 0000000..8c06daf --- /dev/null +++ b/data/stopwords/Romanian.txt @@ -0,0 +1,101 @@ +afară de +alături de +aproape de +asemănător cu +conform cu +contrar cu +cu ajutorul +cu ce +cu cine +cu excepţia +cu privire la +cu scopul +cu toate +cu toată +cu tot +cu tot cu +cu toţi +cât despre +cât pentru +cât priveşte +de ce +de cine +de dinaintea +de-a latul +de-a lungul +departe de +despre ce +despre cine +dimpreună cu +din afara +din cauza +din cauză de +din faţa +din jos de +din partea +din pricina +din sus de +dincoace de +dincolo de +dintr +la ce +la cine +la fel cu +la mijlocul +la sfârşitul +la începutul +laolaltă cu +odată cu +pe deasupra +pe dedesubt +pe dinaintea +pe dinapoia +pe lângă +pe timpul +pe vremea +pentru ce +pentru cine +potrivit cu +prin intermediul +prin mijlocirea +printr +privitor la +referitor la +relativ la +sub aspectul +sub raportul +împreună cu +în afara +în caz de +în cazul +în ceea ce priveşte +în ciuda +în conformitate cu +în cursul +în dosul +în dreapta +în dreptul +în faţa +în funcţie de +în ipoteza +în jurul +în legătură cu +în loc de +în locul +în marginea +în mijlocul +în pofida +în preajma +în privinţa +în raport cu +în rând cu +în scopul +în spatele +în stânga +în timpul +în urma +în vederea +în vremea +înainte de +întocmai ca +într \ No newline at end of file From 50c3da018281cd167720ab8aa1c4b61c03075014 Mon Sep 17 00:00:00 2001 From: Corneliu Cofaru Date: Tue, 30 Oct 2018 17:40:43 +0100 Subject: [PATCH 2/2] Minimalistic tests for Romanian language data support --- test/runtests.jl | 18 ++++++++++++++++++ 1 file changed, 18 insertions(+) diff --git a/test/runtests.jl b/test/runtests.jl index 9bc8942..1a39672 100644 --- a/test/runtests.jl +++ b/test/runtests.jl @@ -15,6 +15,24 @@ lang = Languages.English() @test length(stopwords(lang)) == 488 end +lang = Languages.Romanian() + +@testset "wordlists $lang" begin + @test all(articles(lang) .== ["a", "aceea", "aceia", "acel", "ai", "ale", + "aoalea", "cea", "cei", "cel", "cele", + "lui", "nişte", "o", "un", "unei", "unor", + "unui", "unul"]) + @test all(indefinite_articles(lang) .== ["lui", "nişte", "o", "un", "unei", + "unor", "unui", "unul"]) + # Test that all indefinite articles are present in the articles + @test all(map(article->in(article, articles(lang)), + indefinite_articles(lang))) + @test isempty(definite_articles(lang)) + @test length(prepositions(lang)) == 19 + @test length(pronouns(lang)) == 257 + @test length(stopwords(lang)) == 101 +end + @testset "lang code" begin @test Languages.from_code("ben") == Languages.Bengali() @test Languages.from_code("Ben") == Languages.Bengali()