Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

adjectives missing some forms #94

Open
leoalenc opened this issue Jun 3, 2021 · 4 comments
Open

adjectives missing some forms #94

leoalenc opened this issue Jun 3, 2021 · 4 comments
Assignees
Labels
invalid This doesn't seem right question Further information is requested

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Jun 3, 2021

@arademaker , trabalhando na integração, na PorGram, dos adjetivos do recurso, por meio da versão simplificada gerada pelo meu script em Python, deparei-me com o seguinte problema da versão original:

grep -P "\tabacate+" adjectives-a*.dict

adjectives-aa.dict:abacate abacate+A+F+SG
adjectives-aa.dict:abacates abacate+A+F+PL
adjectives-aa.dict:abacates abacate+A+M+PL

Está faltando a forma de masculino singular! Na verdade, na versão não simplificada do MorphoBr, a cada adjetivo, i.e., a cada lema adjetival, deve corresponder quatro entradas, excetuando aquelas com DIM e AUG.
Talvez haja outros casos como esse? A propósito, descobri essa lacuna por acaso, pois gerou algo estranho no TDL.

@leoalenc leoalenc added invalid This doesn't seem right question Further information is requested labels Jun 3, 2021
@leoalenc
Copy link
Contributor Author

leoalenc commented Jun 3, 2021

@arademaker , outro caso parecido, agora só com duas entradas:

grep -P "\tcavalona+" adjectives-a*.dict

adjectives-aa.dict:cavalona cavalona+A+F+SG
adjectives-aa.dict:cavalonas cavalona+A+F+PL

Na verdade, o lema seria cavalão. Outro caso:

grep -P "\troxa+" adjectives-a*.dict

adjectives-ae.dict:roxa roxa+A+F+SG
adjectives-ae.dict:roxas roxa+A+F+PL
adjectives-ae.dict:roxinha roxa+A+DIM+F+SG
adjectives-ae.dict:roxinhas roxa+A+DIM+F+PL

Existe o lema roxo com 4 formas...
Em anexo, uma lista de 352 casos suspeitos, retirados da PorGram.
erros.txt

@leoalenc
Copy link
Contributor Author

leoalenc commented Jun 3, 2021

@arademaker, está me parecendo que esses dados estranhos foram garimpados em corpus e incorporados sem o devido cuidado em um dos recursos que incorporamos. Muitos casos são de formas que existem como substantivos, o que me faz suspeitar de erros de etiquetagem automática. Veja:

grep -P "\tabotoadeira\+" adjectives-a*.dict

adjectives-aa.dict:abotoadeira abotoadeira+A+F+SG
adjectives-aa.dict:abotoadeiras abotoadeira+A+F+PL

grep -P "\tabotoadeira\+" ../nouns/nouns-a*.dict

../nouns/nouns-aa.dict:abotoadeira abotoadeira+N+F+SG
../nouns/nouns-aa.dict:abotoadeiras abotoadeira+N+F+PL

Faz sentido manter esses adjetivos? De qualquer forma, há o problema apontado das lacunas de formas. Todo adjetivo do português deve ter 4 formas (2 números x 2 gêneros). Tendo agora a eliminar itens dessa lista, seguindo estes critérios:

  1. existe a forma com lema masculino, por exemplo, roxas roxo+A+F+PL
  2. existe o substantivo correspondente (aplicável sobretudo aos casos de adjetivos com apenas duas formas com o mesmo gênero do substantivo)

Para os casos de prováveis adjetivos uniformes, como abacate citado acima, com apenas 3 formas, criamos a quarta forma faltante.
Aqui está a lista atualizada:
erros02.txt

arademaker added a commit that referenced this issue Jun 7, 2021
@arademaker
Copy link
Contributor

Em 61c1043 resolvi os casos particulares listados acima. Desculpe, mas não ficou claro para mim @leoalenc a estratégia sugerida. Para abacate faltava uma forma, mas agora temos nos adjectivos derivados uma forma faltante também, certo?

image

O mesmo ocorre para roxo e cavalão, preciso ainda chegar as formas derivadas. Eu concordo que deveríamos evitar repetir como adjetivos o que não precisar ser repetido por estar como substantivo, mas quais serão os critérios para colocar ou não como adjetivo? distribucional? semântico (aceita ou não gradação)?

@arademaker
Copy link
Contributor

E como sua sugestão aqui se contrasta com #90 (comment) ?

@arademaker arademaker added this to the pre-release 1.0.0 milestone Sep 30, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
invalid This doesn't seem right question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants