Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

temos casos de formas sem plural? #68

Open
arademaker opened this issue Feb 11, 2020 · 7 comments
Open

temos casos de formas sem plural? #68

arademaker opened this issue Feb 11, 2020 · 7 comments
Assignees
Labels
good first issue Good for newcomers help wanted Extra attention is needed longrun Will take a long term effort to solve. question Further information is requested

Comments

@arademaker
Copy link
Contributor

arademaker commented Feb 11, 2020

Vide comentário no issue #61.

Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar?

@leoalenc
Copy link
Contributor

@arademaker e @lucasrct, como já sugeri antes, precisamos elaborar um script que faça essa checagem para os substantivos e adjetivos. Defendo que todo substantivo e todo adjetivo da língua portuguesa deve ter um plural, mesmo nomes próprios, porque, eventualmente, essas palavras podem vir a ser usadas no plural. Em muitos casos, a forma do plural vai ser igual à do singular. Por exemplo, todo nome de lugar pode ser usado na seguinte estrutura:

Não há apenas uma Alemanha, mas várias Alemanhas, pois cada região do país tem suas especificidades; por exemplo, a Alemanha do Norte é bem diferente da Alemanha do Sul.

Exemplos desse tipo não são incomuns em corpora. Curiosamente, o corretor ortográfico do iPhone não reconhece a palavra Alemanha no plural, sublinhando-a de vermelho… Uma limitação que o nosso recurso permite superar. No atual desenho do conjunto de etiquetas que utilizamos, seguindo o principal recurso do qual partimos, só temos etiquetas de singular e plural, o que implica que mesmo formas repetidas devem ser listadas. Exemplos disso: o substantivo lápis e o adjetivo simples. O mesmo problema de repetição é muito frequente no caso do gênero, ver dentista e inteligente. Particularmente, não consideraria uma prioridade agora a revisão das etiquetas, para incluir uma terceira etiqueta de número e uma terceira etiqueta de gênero, para os casos de formas idênticas. Podemos abrir uma questão de longo prazo pra pensar sobre isso no futuro, quando tivermos claramente definida a aplicação sintática do recurso. É claro que as repetições aumentam o tamanho do recurso em arquivo de texto, mas essa repetição é em grande parte eliminada quando convertemos a lista para autômato de estados finitos.
Outra investigação interessante seria fazer um levantamento das formas de plural sem singular! Um desses casos é a palavra óculos na língua culta, cujo lema é óculos e não tem singular. No nosso recurso temos:

~/MorphoBr$ grep -E "^óculos?" nouns/*.dict
nouns/j-p.delaf.dict:óculo óculo+N+M+SG
nouns/j-p.delaf.dict:óculos óculo+N+M+PL
nouns/nouns.gfl.dict:óculos óculos+N+M+PL
nouns/nouns.gfl.dict:óculos óculos+N+M+SG

Ao meu ver, essa modelagem está correta: as duas primeiras entradas representam o singular e o plural do lema óculo, a terceira entrada constitui a única forma existente na língua culta do lema óculos, e a última entrada é a forma do singular de óculos na língua coloquial.

@leoalenc
Copy link
Contributor

@arademaker e @lucasrct, se o script referido acima apontar formas de substantivos ou adjetivos sem plural, precisamos corrigir isso, porque senão vou continuar obtendo erros na derivação de diminutivos.

@leoalenc leoalenc added longrun Will take a long term effort to solve. question Further information is requested labels Feb 16, 2020
This was referenced Feb 16, 2020
@leoalenc leoalenc added good first issue Good for newcomers help wanted Extra attention is needed labels Jun 4, 2020
@arademaker
Copy link
Contributor Author

Acima vc disse e a última entrada é a forma do singular de óculos na língua coloquial. na verdade a primeira né?

@arademaker arademaker added this to the pre-release 1.0.0 milestone May 31, 2021
@arademaker
Copy link
Contributor Author

Na forma atual do recurso, depois do issue #67 os exemplos que @leoalenc, na discussão de duplicidates, foram tratados e ficaram:

5639 óculos	óculo+N+M+PL
5640 óculo	óculo+N+M+SG
5644 óculos	óculos+N+M

12435 lápis	lápis+N+M

11817 simples	simples+N
4042 simples	simples+A

18745 simples	simples+ADV

Para simples como N, temos uma entrada em http://wn.mybluemix.net/synset?id=12212690-n que justifica e https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/simples/.

Para dentista temos:

3187 dentistas	dentista+N+PL
3188 dentista	dentista+N+SG

Para inteligente não temos agora repetição de gênero nos substantivos nem nos adjetivos:

nouns/nouns-inf.dict
3226 inteligentes	inteligente+N+PL
3227 inteligente	inteligente+N+SG

adjectives/adjectives-imp.dict
14759inteligentes	inteligente+A+PL
14760inteligente	inteligente+A+SG

@arademaker arademaker assigned analununes and unassigned lucasrct Jun 9, 2021
@leoalenc
Copy link
Contributor

Acima vc disse e a última entrada é a forma do singular de óculos na língua coloquial. na verdade a primeira né?

@arademaker, na linguagem coloquial, costumamos ouvir ou ler coisas como preciso de um óculos novo, o que é contemplado pela seguinte entrada, a ultima das mencionadas naquele comentário meu:

nouns/nouns.gfl.dict:óculos óculos+N+M+SG

@arademaker
Copy link
Contributor Author

Claro agora, achei que a forma óculo era a que vc considerava coloquial.

@analununes
Copy link
Contributor

@arademaker e @leoalenc, neste commit implementei uma função que lista casos em que o número de formas no plural é diferente do número de formas no singular para um mesmo lema, portanto aponta formas sem plural e formas sem singular. Essa função compara a lista de lema+tags sem duplicações, isso para evitar listar casos como florzinhas e florezinhas que gerariam falso erro por ter uma forma a mais no plural.
A função produz um documento em que a cada linha são listadas as entradas de um lema que não possuía número de formas no plural igual ao número de formas no singular, se quiserem posso mudar o formato.

portes-pagos	portes-pagos+N+M+PL, portes-pagosinhos	portes-pagos+N+DIM+M+PL, portes-pagosinhas	portes-pagos+N+DIM+F+PL
posses	posses+N+F+PL
posteriori	posteriori+N+M+SG, posteriorizinho	posteriori+N+DIM+M+SG
postiços	postiços+N+M+PL, postiçosinhos	postiços+N+DIM+M+PL, postiçosinhas	postiços+N+DIM+F+PL
postres	postres+N+M+PL, postresinhos	postres+N+DIM+M+PL, postresinhas	postres+N+DIM+F+PL
poucas	poucas+N+F+PL

Alguns dos casos listados parecem ser de erro no lema como posses e poucas.
Obs.: para substantivos foram listados 1574 casos e para adjetivos 115 casos.

@analununes analununes removed this from the pre-release 1.0.0 milestone Sep 21, 2021
@arademaker arademaker added this to the pre-release 1.0.0 milestone Sep 30, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
good first issue Good for newcomers help wanted Extra attention is needed longrun Will take a long term effort to solve. question Further information is requested
Projects
None yet
Development

No branches or pull requests

4 participants