Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Forms related to "cabra" and the problem of lemmatizing lexicalized diminutives #97

Open
leoalenc opened this issue Jun 10, 2021 · 3 comments
Assignees
Labels
longrun Will take a long term effort to solve. question Further information is requested

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Jun 10, 2021

@arademaker, continuando #79, temos:

~/MorphoBr/nouns$ grep -P "\tcabrito\+" nouns-a* ../diminutives/*.dict

nouns-aa.dict:cabrita cabrito+N+F+SG
nouns-aa.dict:cabritas cabrito+N+F+PL
nouns-aa.dict:cabritinha cabrito+N+DIM+F+SG
nouns-aa.dict:cabritinhas cabrito+N+DIM+F+PL
nouns-aa.dict:cabritinho cabrito+N+DIM+M+SG
nouns-aa.dict:cabritinhos cabrito+N+DIM+M+PL
nouns-aa.dict:cabritita cabrito+N+DIM+F+SG
nouns-aa.dict:cabrititas cabrito+N+DIM+F+PL
nouns-aa.dict:cabritito cabrito+N+DIM+M+SG
nouns-aa.dict:cabrititos cabrito+N+DIM+M+PL
nouns-aa.dict:cabrito cabrito+N+M+SG
nouns-aa.dict:cabritos cabrito+N+M+PL
../diminutives/deadjectivals.mbr.dict:cabritazinha cabrito+A+DIM+F+SG
../diminutives/deadjectivals.mbr.dict:cabritazinhas cabrito+A+DIM+F+PL
../diminutives/deadjectivals.mbr.dict:cabritinha cabrito+A+DIM+F+SG
../diminutives/deadjectivals.mbr.dict:cabritinhas cabrito+A+DIM+F+PL
../diminutives/deadjectivals.mbr.dict:cabritinho cabrito+A+DIM+M+SG
../diminutives/deadjectivals.mbr.dict:cabritinhos cabrito+A+DIM+M+PL
../diminutives/deadjectivals.mbr.dict:cabritozinho cabrito+A+DIM+M+SG
../diminutives/deadjectivals.mbr.dict:cabritozinhos cabrito+A+DIM+M+PL
../diminutives/denominals.mbr.dict:cabritazinha cabrito+N+DIM+F+SG
../diminutives/denominals.mbr.dict:cabritazinhas cabrito+N+DIM+F+PL
../diminutives/denominals.mbr.dict:cabritinha cabrito+N+DIM+F+SG
../diminutives/denominals.mbr.dict:cabritinhas cabrito+N+DIM+F+PL
../diminutives/denominals.mbr.dict:cabritinho cabrito+N+DIM+M+SG
../diminutives/denominals.mbr.dict:cabritinhos cabrito+N+DIM+M+PL
../diminutives/denominals.mbr.dict:cabritozinho cabrito+N+DIM+M+SG
../diminutives/denominals.mbr.dict:cabritozinhos cabrito+N+DIM+M+PL

Precisamos:

  1. estabelecer os lemas etimologicamente relacionados a cabra
  2. determinar os diminutivos correspondentes
  3. corrigir o recurso com base em 1) e 2), eliminando entradas espúrias e, eventualmente, completando as faltantes:

Os lemas, em princípio, são:
cabra+N+F
cabrita+N+F
cabrito+N+M

Existe também o cabra:

grep -P "\tcabra\+N\+M" nouns-a*

nouns-aa.dict:cabra cabra+N+M+SG
nouns-aa.dict:cabras cabra+N+M+PL

A questão não parece, contudo, trivial. Relaciona-se a questões amplas de design. Por exemplo, deve haver lemas diferentes para formas derivadas lexicalizadas com significado não mais composicional, como cabrita?

@leoalenc leoalenc changed the title Forms related to _cabra_ and the problem of lemmatizing lexicalized diminutives Forms related to "cabra" and the problem of lemmatizing lexicalized diminutives Jun 10, 2021
@leoalenc leoalenc added longrun Will take a long term effort to solve. question Further information is requested labels Jun 10, 2021
@leoalenc
Copy link
Contributor Author

@arademaker, complementando, o melhor seria corrigir a base herdada do DELAF e do FreeLing e, depois, rodar o gerador de diminutivos em (z)inh.

@arademaker
Copy link
Contributor

Acho que seria bem complicado agora tentar aplicar ajustes nos recursos que usamos. Seja porque eles próprios já evoluíram ou porque ao longo destes anos nós já mudamos várias entradas que vieram deles.

Minha sugestão é sim pensarmos em quais testes de consistência podemos ter.

Para frente, precisamos definir o que são dados base/primitivos e o que são dados gerados por regras. De tal forma que, para os diminutivos e outras formas geradas por regras, teríamos uma maneira de reexecutar a geração a partir dos dados base/primitivos.

@arademaker
Copy link
Contributor

arademaker commented Jun 10, 2021

Em tempo, como ficarão os diminutivos na modelagem da PorGram? Seriam regras certo? E o que chamo acima de dados base seriam talvez as entradas lexicais no léxico.tdl e no arquivo das formas irregular.

@arademaker arademaker added this to the pre-release 1.0.0 milestone Sep 30, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
longrun Will take a long term effort to solve. question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants