Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

should we preserve old orthography forms? #93

Open
leoalenc opened this issue Jun 1, 2021 · 3 comments
Open

should we preserve old orthography forms? #93

leoalenc opened this issue Jun 1, 2021 · 3 comments
Assignees
Labels
longrun Will take a long term effort to solve. question Further information is requested

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Jun 1, 2021

@arademaker, como ressaltei em issue anterior (#92), existem muitas formas duplas por conta da inclusão de formas da ortografia de antes do Acordo Ortográfico da Língua Portuguesa de 1990 (doravante AOP), em vigor desde 2009 no Brasil e em Portugal. São, por exemplo, formas com ü, abolido de todo pelo AOP, e terminadas em éia(s), substituídas pelas formas com eia(s). Devemos preservar as formas antigas? Inclino-me, salvo melhor juízo, a eliminá-las, pois se alguém quiser utilizar o recurso para processar textos mais antigos, deveria realizar a normalização das formas seguindo o AOP. O português sofreu diversas reformas ortográficas ao longo do tempo, manter as formas do período imediatamente anterior ao AOP não ajudaria o processamento de formas de períodos mais antigos. Essa eliminação de formas, porém, pode não ser tão trivial, pois parece haver casos menos óbvios que os mencionados acima.

@leoalenc leoalenc added question Further information is requested longrun Will take a long term effort to solve. labels Jun 1, 2021
@wellington36
Copy link

Uma discussão acredito parecida foi iniciada no Bosque UniversalDependencies/UD_Portuguese-Bosque#306, mais voltada ao Portugal, acredito que seria interessante mencionar aqui.

@vcvpaiva
Copy link

vcvpaiva commented Jun 1, 2021

Discordo @leoalenc ! O problema e' generico: temos o mesmo no OWN-PT, nos treebanks, em todos os lugares.
acho que e' melhor termos as duas formas. os portugueses ja' nao mudaram a grafia deles ha' mais de dez anos. so' vai complicar a nossa vida, pra nenhum beneficio tangivel.

@arademaker
Copy link
Contributor

Seria bom tentarmos fazer um script para capturar as listas de http://www.portaldalinguaportuguesa.org/?action=novoacordo e comprar com o MorphoBr? Talvez conseguir identificar possiveis inconsistencias e talvez decidir se queremos marcar as formas antigas de alguma forma? Ou separa-las em arquivos diferentes?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
longrun Will take a long term effort to solve. question Further information is requested
Projects
None yet
Development

No branches or pull requests

4 participants