Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

formas espúrias de verbos devidas a erros ortográficos #106

Closed
leoalenc opened this issue Aug 4, 2021 · 45 comments
Closed

formas espúrias de verbos devidas a erros ortográficos #106

leoalenc opened this issue Aug 4, 2021 · 45 comments
Assignees
Labels
bug Something isn't working

Comments

@leoalenc
Copy link
Contributor

leoalenc commented Aug 4, 2021

@arademaker e @analununes, examinando o arquivo preparado pela @analununes https://github.com/LR-POR/PorGram/files/6927615/amostra-irregs.txt, referido em #104, constatei os seguintes erros:

~/MorphoBr/verbs$ grep -Ph "\tvir\+V\+PRF\+2\+SG" verbs-a*

veiste vir+V+PRF+2+SG errada
vieste vir+V+PRF+2+SG correta

~/MorphoBr/verbs$ grep -Ph "\tver\+V\+PRS\+3\+PL" verbs-a*

veem ver+V+PRS+3+PL correta
vêem ver+V+PRS+3+PL errada

A forma vêem deixou de ser correta pelo novo acordo ortográfico:

http://www.portaldalinguaportuguesa.org/simplesearch.php?action=lemma&lemma=110412&highlight=^ver$
https://ciberduvidas.iscte-iul.pt/consultorio/perguntas/veem-e-vem-mais-uma-vez/22604

@leoalenc leoalenc added the bug Something isn't working label Aug 4, 2021
@arademaker
Copy link
Contributor

O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas.

Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 4, 2021

O segundo caso é interessante. O que devemos fazer com formas que não estão no novo acordo? Qualquer futuro uso do recurso com corpora poderá resultar em gap se removermos ... textos irão conter formas que eventualmente deixaram de ser aceitas.

Marcamos estas formas ? Separamos em outro arquivo ? Obviamente manter estes registros pode ser bem complicado.

@arademaker, esse problema já foi levantado em #93. No caso da presente issue, que afeta uma única forma, num primeiro impulso, quis eliminá-la, mas agora vejo o lado para o qual você chama atenção, preferindo deixar como está.
Depois retomamos #93, considerando a possibilidade de marcar com uma etiqueta essas formas.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 4, 2021

@arademaker e @analununes, seja como for, acho que devemos eliminar esta forma:

veiste vir+V+PRF+2+SG errada

@arademaker
Copy link
Contributor

arademaker commented Aug 4, 2021

Parece que o erro propagou para outros lemas:

Search term: veiste change
Directory: ~/work/morpho-br/

verbs/verbs-aat.dict
38976deveiste	devir+V+PRF+2+SG

verbs/verbs-acm.dict
11150veiste	vir+V+PRF+2+SG

verbs/verbs-abs.dict
11407obveiste	obvir+V+PRF+2+SG

verbs/verbs-abk.dict
34034interveiste	intervir+V+PRF+2+SG

verbs/verbs-aay.dict
31918entreveiste	entrevir+V+PRF+2+SG

verbs/verbs-aah.dict
38881aveiste	avir+V+PRF+2+SG

verbs/verbs-acg.dict
20623sobreveiste	sobrevir+V+PRF+2+SG

verbs/verbs-aaq.dict
12948desaveiste	desavir+V+PRF+2+SG
36174desconveiste	desconvir+V+PRF+2+SG

verbs/verbs-acd.dict
27923reveiste	revir+V+PRF+2+SG

verbs/verbs-abz.dict
9585 proveiste	provir+V+PRF+2+SG

verbs/verbs-aab.dict
39036adveiste	advir+V+PRF+2+SG

verbs/verbs-aan.dict
27796contraveiste	contravir+V+PRF+2+SG
29474conveiste	convir+V+PRF+2+SG

verbs/verbs-acb.dict
15669reconveiste	reconvir+V+PRF+2+SG

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 4, 2021

Parece que o erro propagou para outros lemas:

verbs/verbs-aat.dict
38976deveiste	devir+V+PRF+2+SG

verbs/verbs-acm.dict
11150veiste	vir+V+PRF+2+SG

verbs/verbs-abs.dict
11407obveiste	obvir+V+PRF+2+SG

verbs/verbs-abk.dict
34034interveiste	intervir+V+PRF+2+SG

verbs/verbs-aay.dict
31918entreveiste	entrevir+V+PRF+2+SG

verbs/verbs-aah.dict
38881aveiste	avir+V+PRF+2+SG

verbs/verbs-acg.dict
20623sobreveiste	sobrevir+V+PRF+2+SG

verbs/verbs-aaq.dict
12948desaveiste	desavir+V+PRF+2+SG
36174desconveiste	desconvir+V+PRF+2+SG

verbs/verbs-acd.dict
27923reveiste	revir+V+PRF+2+SG

verbs/verbs-abz.dict
9585 proveiste	provir+V+PRF+2+SG

verbs/verbs-aab.dict
39036adveiste	advir+V+PRF+2+SG

verbs/verbs-aan.dict
27796contraveiste	contravir+V+PRF+2+SG
29474conveiste	convir+V+PRF+2+SG

verbs/verbs-acb.dict
15669reconveiste	reconvir+V+PRF+2+SG

@arademaker, bem lembrado verificar isso. Correto, todas essas são formas espúrias.

@arademaker
Copy link
Contributor

Related to LR-POR/PorGram#15

@analununes
Copy link
Contributor

@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:

aalenianizasseis	IMPF-SUBJ-2PL-SUFFIX	aalenianizar
aaronicizasseis	IMPF-SUBJ-2PL-SUFFIX	aaronicizar
ababalhabilizasseis	IMPF-SUBJ-2PL-SUFFIX	ababalhabilizar
ababosabilizasseis	IMPF-SUBJ-2PL-SUFFIX	ababosabilizar
abacalhoo	PRES-IND-1SG-SUFFIX	abacalhoar
abacalhôo	PRES-IND-1SG-SUFFIX	abacalhoar
abacelabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abacelabilizar
abacializasseis	IMPF-SUBJ-2PL-SUFFIX	abacializar
abacinabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abacinabilizar
abadabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abadabilizar
abadernabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abadernabilizar
abadessabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abadessabilizar
abaetabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abaetabilizar
abafabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abafabilizar
abaganhabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abaganhabilizar
abagaçabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abagaçabilizar
abagoabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abagoabilizar
 impf-subj-2pl-suffix :=
%suffix (ir ísseis) (er êsseis) (ar ásseis)
impf-subj-2pl-lex-rule.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 5, 2021

@arademaker e @leoalenc, acredito ter encontrado outro erro, as formas com sufixo -asseis estão sendo identificadas como irregulares:

aalenianizasseis	IMPF-SUBJ-2PL-SUFFIX	aalenianizar
aaronicizasseis	IMPF-SUBJ-2PL-SUFFIX	aaronicizar
ababalhabilizasseis	IMPF-SUBJ-2PL-SUFFIX	ababalhabilizar
ababosabilizasseis	IMPF-SUBJ-2PL-SUFFIX	ababosabilizar
abacalhoo	PRES-IND-1SG-SUFFIX	abacalhoar
abacalhôo	PRES-IND-1SG-SUFFIX	abacalhoar
abacelabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abacelabilizar
abacializasseis	IMPF-SUBJ-2PL-SUFFIX	abacializar
abacinabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abacinabilizar
abadabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abadabilizar
abadernabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abadernabilizar
abadessabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abadessabilizar
abaetabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abaetabilizar
abafabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abafabilizar
abaganhabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abaganhabilizar
abagaçabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abagaçabilizar
abagoabilizasseis	IMPF-SUBJ-2PL-SUFFIX	abagoabilizar
 impf-subj-2pl-suffix :=
%suffix (ir ísseis) (er êsseis) (ar ásseis)
impf-subj-2pl-lex-rule.

@analununes, muito bem observado! As formas em asseis de IMPF-SUBJ-2PL sem acento são espúrias! Devem ser removidas ou acentuadas. @arademaker, seriam formas geradas (erroneamente) pelo Hélio? Parece que todos os lemas terminam em izar.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 5, 2021

@arademaker e @analununes, quismos e quisdes são outras formas espúrias que provocaram erros na tabela de exceções:

quisermos FUT-SUBJ-1PL-SUFFIX querer forma correta
quismos FUT-SUBJ-1PL-SUFFIX querer forma errada

quisdes FUT-SUBJ-2PL-SUFFIX querer forma errada
quiserdes FUT-SUBJ-2PL-SUFFIX querer forma correta

@leoalenc
Copy link
Contributor Author

@arademaker, mais formas espúrias, agora detectadas pelo algoritmo da @analununes, que gerou o arquivo https://github.com/LR-POR/PorGram/files/6942926/regra2-sem-s.txt:

head regra2-sem-s.txt

abalausuraste abalaustrar+V+PRF+2+SG erro
abalaustraste abalaustrar+V+PRF+2+SG
abaldeia abaldear+V+IMP+2+SG
abaldeaia abaldear+V+IMP+2+SG erro
abarbeia abarbear+V+IMP+2+SG
abarbeaia abarbear+V+IMP+2+SG erro
abastardeia abastardear+V+IMP+2+SG
abastardeaia abastardear+V+IMP+2+SG erro
abstrói abstruir+V+IMP+2+SG erro
abstrui abstruir+V+IMP+2+SG

Ver http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=69845.

@arademaker
Copy link
Contributor

Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada.

Por exemplo, se vou eliminar

veiste vir+V+PRF+2+SG

Preciso garantir que existe outra entrada para o mesmo lema e análise:

???? vir+V+PRF+2+SG

Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência.

@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?

@leoalenc
Copy link
Contributor Author

Ok, precisamos de uma estratégia para eliminar formas do recurso. O primeiro impulso é manualmente pagar a linha com um editor de texto. Mas minimamente precisamos verificar se existe alguma outra entrada para a análise sendo eliminada.

Por exemplo, se vou eliminar

veiste vir+V+PRF+2+SG

Preciso garantir que existe outra entrada para o mesmo lema e análise:

???? vir+V+PRF+2+SG

Idealmente, no futuro, seria bom recorrer a biblioteca que estamos criando e ter um comando para remoção e inserção de entradas que fariam estes testes de consistência.

@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?

@arademaker, boa pergunta, mas, no caso das formas espúrias objeto desta issue, como são duplicatas agramaticais de formas gramaticais, já sabemos que podem ser removidas sem deixar lacunas no recurso. De fato, o algoritmo implementado pela @analununes a partir do meu esboço (aquelas regras de remoção que formulei) detecta essas duplicatas espúrias.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 11, 2021

@leoalenc algum outro cuidado para remoção ou adição de formas que devemos ter para tentar garantir consistência do recurso?

@arademaker, as regras flexionais de my-irules.tdl constituem um bom critério, pois visam a modelar as regularidades e as principais subregularidades da conjugação do português. É claro que não considero essa regras um trabalho fechado e concluído. Posso incluir mais subregularidades por meio de (re)leitura da literatura ou pelo exame da saída do algoritmo da @analununes, que classifica as formas verbais em regulares e irregulares. Com isso, podemos diminuir o tamanho de my-irregs.tab. Isso mostra a importância fundamental do referido algoritmo da @analununes no nosso ecossistema.

@arademaker arademaker added this to the pre-release 1.0.0 milestone Aug 13, 2021
@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 16, 2021

@analununes , Vendo o mais recente arquivo de formas regulares, constatei um outro tipo de erro ortográfico: formas do verbo cuspir com a letra u repetida.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 16, 2021

@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo

Curguei, curgue etc. do verbo curvar
Não existe gu na conjugação de curvar

Formas do verbo cuspir começadas com cuo

Formas de denegrir com com duas vezes a letra e

Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.

Formas do verbo suspeitar com gu, Por exemplo suspeigue

@analununes
Copy link
Contributor

analununes commented Aug 16, 2021

@analununes , mais alguns erros do Morphobr que detectei no mais recente arquivo de formas irregulares gerado pelo seu algoritmo:

Curguei, curgue etc. do verbo curvar
Não existe gu na conjugação de curvar

Formas do verbo cuspir começadas com cuo

Formas de denegrir com com duas vezes a letra e

Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. Procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.

Formas do verbo suspeitar com gu, Por exemplo suspeigue

@leoalenc, assim que tiver meu algoritmo pronto vou montar uma lista com essas entradas para você conferir, ok?

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 16, 2021

@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu".

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 16, 2021

@analununes , só mais um erro, talvez até já esteja na lista dos casos A serem eliminados: formas do verbo abalaustrar com "lausu".

@analununes , Na lista de irregulares irregs.txt, tem muitos erros desse tipo! Procure por lausu e lausú com lema abalaustrar. Essas palavras estão erradas porque foi trocado o t por u ou ú.

@leoalenc
Copy link
Contributor Author

@arademaker e @analununes, na tabela final irregs.txt, comentada no artigo, encontrei os tipos seguintes de problemas:

  1. nova versus velha ortografia:
    a) oo junto com ôo

abacalhoo PRES-IND-1SG-SUFFIX abacalhoar
abacalhôo PRES-IND-1SG-SUFFIX abacalhoar
abagoo PRES-IND-1SG-SUFFIX abagoar
abagôo PRES-IND-1SG-SUFFIX abagoar
etc.

b) aiu junto com aiú

abaiuque PRES-SUBJ-3SG-SUFFIX abaiucar
abaiúque PRES-SUBJ-3SG-SUFFIX abaiucar
etc.

Ver:

No Brasil, também desaparecem os acentos gráficos nas vogais tónicas i e u quando são antecedidas de um ditongo: baiúca passa a escrever-se baiuca, saiinha passa a ser a forma correta da palavra que antes se escrevia saiínha.
http://www.portaldalinguaportuguesa.org/novoacordo.php?action=vop&page=crit1

c)

aboie PRES-SUBJ-3SG-SUFFIX aboiar
abóie PRES-SUBJ-3SG-SUFFIX aboiar

Ver:

Segundo as novas regras, os ditongos tónicos na penúltima sílaba deixam de ser marcados com acento gráfico: assim, palavras como jóia e paranóico passam a escrever-se joia e paranoico. No Brasil, esta regra aplica-se também às palavras com ditongo ei tónico, que no Brasil eram até aqui escritas com acento e passam a ser escritas como nos restantes países, ideia e nucleico.
http://www.portaldalinguaportuguesa.org/novoacordo.php?action=vop&page=crit1

  1. erros completamente arbitrários

aba PRES-IND-3SG-SUFFIX abar
taba PRES-IND-3SG-SUFFIX abar
abaule PRES-SUBJ-3SG-SUFFIX abaular
abaúle PRES-SUBJ-3SG-SUFFIX abaular
etc.

Em todas as formas de abaular,ocorre o ditongo au e não o hiato no radical:
http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=128469

Diversas formas do verbo agauchar com dois us:

agauche PRES-SUBJ-3SG-SUFFIX agauchar
agauúhe PRES-SUBJ-3SG-SUFFIX agauchar

Tenho uma lembrança que esse erro apareceu em issue anterior, estranho ainda aparecer aqui. Eliminar tanto as formas com uu quanto de agauchar.

  1. inexistência de acento nas formas rizotônicas de agraudar:

agraude PRES-SUBJ-3SG-SUFFIX agraudar erro
agraúde PRES-SUBJ-3SG-SUFFIX agraudar
agraudem PRES-SUBJ-3PL-SUFFIX agraudar erro
agraúdem PRES-SUBJ-3PL-SUFFIX agraudar
agraudes PRES-SUBJ-2SG-SUFFIX agraudar erro
agraúdes PRES-SUBJ-2SG-SUFFIX agraudar
agraude PRES-SUBJ-1SG-SUFFIX agraudar erro
agraúde PRES-SUBJ-1SG-SUFFIX agraudar
agrauda PRES-IND-3SG-SUFFIX agraudar erro
agraúda PRES-IND-3SG-SUFFIX agraudar
etc.
Ver:
http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=37655

É interessante que esse erro sugere erro de modelagem do algoritmo que gerou essas formas para constituir os recursos que foram incorporados ao MorphoBr. Esse algoritmo não levou em conta essas exceções. Talvez seja o caso de eu revisar as regras flexionais da PorGram para dar conta desses casos.

  1. formas do verbo aguar, possivelmente, subtipo de 1):

águem PRES-SUBJ-3PL-SUFFIX aguar
aguem PRES-SUBJ-3PL-SUFFIX aguar
ágüem PRES-SUBJ-3PL-SUFFIX aguar
etc.
Ver: http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=8115

Essa lista de 5 tipos, evidentemente, não é exaustiva. Parei a verificação na linha 556 de irregs.txt. Como esses problemas são recorrentes, afetando dezenas de outros exemplos, a sua eliminação da lista vai reduzir em muito o arquivo original, permitindo uma nova verificação manual sobre um conjunto de dados menor. Depois repetimos o processo e vamos, recursivamente, diminuindo a lista.
Esses problemas enfatizam a importância da implementação do algoritmo de classificação de formas verbais em regulares e irregulares, conforme delineado em mais de uma issue da PorGram. Várias vezes, @arademaker chamou a atenção para a inexistência de uma ferramenta de validação de entradas. As regras de flexão da PorGram, associadas com o programa em Haskell da @analununes, constituem um passo nessa direção.

@leoalenc
Copy link
Contributor Author

@arademaker e @analununes, mais casos de 3):

a) formas de aguerrir com j ou g em vez de r:

aguirra PRES-SUBJ-3SG-SUFFIX aguerrir
aguerja PRES-SUBJ-3SG-SUFFIX aguerrir
etc.

aguerríssemos IMPF-SUBJ-1PL-SUFFIX aguerrir
aguergíssemos IMPF-SUBJ-1PL-SUFFIX aguerrir
etc.

Particípio estranho:

aguerrido PAST-PART-SUFFIX aguerrir
aguerto PAST-PART-SUFFIX aguerrir ???

http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=88329

b) formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):

ajesuite PRES-SUBJ-3SG-SUFFIX ajesuitar
ajesuíze PRES-SUBJ-3SG-SUFFIX ajesuitar
http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=81350

c) formas de anexar com gu em vez de x

anexe PRES-SUBJ-3SG-SUFFIX anexar
anegue PRES-SUBJ-3SG-SUFFIX anexar
anexem PRES-SUBJ-3PL-SUFFIX anexar
aneguem PRES-SUBJ-3PL-SUFFIX anexar
anexes PRES-SUBJ-2SG-SUFFIX anexar
anegues PRES-SUBJ-2SG-SUFFIX anexar
anexeis PRES-SUBJ-2PL-SUFFIX anexar
anegueis PRES-SUBJ-2PL-SUFFIX anexar

d) formas de INFL-INF-2SG-SUFFIX sem res final, por exemplo:

anexares INFL-INF-2SG-SUFFIX anexar
anexa INFL-INF-2SG-SUFFIX anexar

e) formas com truncamento do radical arraçarraçar e arregaçarregaçar (esses verbos existem?)

arrace PRES-SUBJ-1SG-SUFFIX arraçarraçar
arraçasse IMPF-SUBJ-1SG-SUFFIX arraçarraçar
etc.

Parei análise na linha 1400.

@leoalenc
Copy link
Contributor Author

@arademaker e @analununes, pesquisei o tal estranho e suspeito verbo arregaçarregaçar no Google, a única coisa que encontrei foi esta:

https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt

Ou seja, tudo indica que herdamos esse verbo do Freeling. Suspeito que, nesse recurso, essa forma espúria surgiu por conta de erro de segmentação (apagamento de um espaço ou quebra de linha) dos dados, que fundiu os verbos arregaçar e regaçar.
O outro verbo suspeito, arraçarraçar, tem a mesma origem:

https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt

Deriva da fusão dos verbos legítimos arraçar e raçar.

@leoalenc
Copy link
Contributor Author

leoalenc commented Aug 19, 2021

Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:

arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar
arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar
arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar
arriça PRES-IND-3SG-SUFFIX arriçarriçar
arriçaram PERF-IND-3PL-SUFFIX arriçarriçar
arriçaste PERF-IND-2SG-SUFFIX arriçarriçar
arriçara PLUPERF-3SG-SUFFIX arriçarriçar
arriçara PLUPERF-1SG-SUFFIX arriçarriçar
arriçarem INFL-INF-3PL-SUFFIX arriçarriçar
arriçares INFL-INF-2SG-SUFFIX arriçarriçar
arriçardes INFL-INF-2PL-SUFFIX arriçarriçar
arriçar INFL-INF-1SG-SUFFIX arriçarriçar
arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar
arriçava IMPF-IND-3SG-SUFFIX arriçarriçar
arriçava IMPF-IND-1SG-SUFFIX arriçarriçar
arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar

O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.

@leoalenc
Copy link
Contributor Author

@analununes, mais casos de troca de consoante final do radical:

arruíne PRES-SUBJ-3SG-SUFFIX arruinar
arruíze PRES-SUBJ-3SG-SUFFIX arruinar erro
arruínem PRES-SUBJ-3PL-SUFFIX arruinar
arruízem PRES-SUBJ-3PL-SUFFIX arruinar erro
etc.

@leoalenc
Copy link
Contributor Author

@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:

aspirja PRES-SUBJ-3SG-SUFFIX aspergir
aspirjam PRES-SUBJ-3PL-SUFFIX aspergir
aspirjas PRES-SUBJ-2SG-SUFFIX aspergir
aspirjais PRES-SUBJ-2PL-SUFFIX aspergir
aspirja PRES-SUBJ-1SG-SUFFIX aspergir
aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir
aspirjo PRES-IND-1SG-SUFFIX aspergir

Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas.

@leoalenc
Copy link
Contributor Author

@arademaker e @analununes, mais casos de 3):

c) formas de anexar com gu em vez de x

anexe PRES-SUBJ-3SG-SUFFIX anexar
anegue PRES-SUBJ-3SG-SUFFIX anexar
anexem PRES-SUBJ-3PL-SUFFIX anexar
aneguem PRES-SUBJ-3PL-SUFFIX anexar
anexes PRES-SUBJ-2SG-SUFFIX anexar
anegues PRES-SUBJ-2SG-SUFFIX anexar
anexeis PRES-SUBJ-2PL-SUFFIX anexar
anegueis PRES-SUBJ-2PL-SUFFIX anexar

@analununes, mais casos análogos:

atente PRES-SUBJ-3SG-SUFFIX atentar
atengue PRES-SUBJ-3SG-SUFFIX atentar erro
atentem PRES-SUBJ-3PL-SUFFIX atentar
atenguem PRES-SUBJ-3PL-SUFFIX atentar erro
atentes PRES-SUBJ-2SG-SUFFIX atentar
atengues PRES-SUBJ-2SG-SUFFIX atentar erro
atenteis PRES-SUBJ-2PL-SUFFIX atentar
atengueis PRES-SUBJ-2PL-SUFFIX atentar erro
etc.

@leoalenc
Copy link
Contributor Author

@analununes:

atido PAST-PART-SUFFIX ater
ateido PAST-PART-SUFFIX ater erro

@leoalenc
Copy link
Contributor Author

Verificada até linha 1656.

@analununes
Copy link
Contributor

analununes commented Aug 23, 2021

Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:

arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar
arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar
arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar
arriça PRES-IND-3SG-SUFFIX arriçarriçar
arriçaram PERF-IND-3PL-SUFFIX arriçarriçar
arriçaste PERF-IND-2SG-SUFFIX arriçarriçar
arriçara PLUPERF-3SG-SUFFIX arriçarriçar
arriçara PLUPERF-1SG-SUFFIX arriçarriçar
arriçarem INFL-INF-3PL-SUFFIX arriçarriçar
arriçares INFL-INF-2SG-SUFFIX arriçarriçar
arriçardes INFL-INF-2PL-SUFFIX arriçarriçar
arriçar INFL-INF-1SG-SUFFIX arriçarriçar
arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar
arriçava IMPF-IND-3SG-SUFFIX arriçarriçar
arriçava IMPF-IND-1SG-SUFFIX arriçarriçar
arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar

O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.

@leoalenc, no commit 9412b64 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma.
As formas de regaçar e riçar estão no MorphoBr, raçar deve ser adicionada? Não encontrei esse verbo em https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt.

As seguintes entradas foram criadas:

arraceis	arraçar+V+IMP+2+PL
arraces	arraçar+V+IMP+2+SG
arregaceis	arregaçar+V+IMP+2+PL
arregaces	arregaçar+V+IMP+2+SG
arriceis	arriçar+V+IMP+2+PL
arrices	arriçar+V+IMP+2+SG

Estas foram eliminadas:
deletadas.txt

@arademaker
Copy link
Contributor

Porque usar este link específico @analununes ? O dicionário de freeling usamos como ponto de partida para o morphobr e este link não é o repositório oficial do freeling.

Eu estou preocupado com este issue. São vários os erros aparentemente detectados pela inspeção manual de entradas não esperadas na tabela de formas irregulares que o algoritmo gerou.

Então como iremos garantir que efetivamente todas as formas espúrias aqui listadas explícita e implicitamente serão efetivamente eliminadas e somente elas?

@arademaker
Copy link
Contributor

Pra piorar, como a eliminação de algumas formas está causando modificação em praticamente todos os arquivos de verbos, o diff do GitHub não será de nenhuma utilidade.

@leoalenc
Copy link
Contributor Author

Mais problemas decorrente da fusão de verbos diferentes, no caso arriçar e riçar:

arrice PRES-SUBJ-1SG-SUFFIX arriçarriçar
arriçasse IMPF-SUBJ-1SG-SUFFIX arriçarriçar
arriçar FUT-SUBJ-1SG-SUFFIX arriçarriçar
arriça PRES-IND-3SG-SUFFIX arriçarriçar
arriçaram PERF-IND-3PL-SUFFIX arriçarriçar
arriçaste PERF-IND-2SG-SUFFIX arriçarriçar
arriçara PLUPERF-3SG-SUFFIX arriçarriçar
arriçara PLUPERF-1SG-SUFFIX arriçarriçar
arriçarem INFL-INF-3PL-SUFFIX arriçarriçar
arriçares INFL-INF-2SG-SUFFIX arriçarriçar
arriçardes INFL-INF-2PL-SUFFIX arriçarriçar
arriçar INFL-INF-1SG-SUFFIX arriçarriçar
arriçarmos INFL-INF-1PL-SUFFIX arriçarriçar
arriçava IMPF-IND-3SG-SUFFIX arriçarriçar
arriçava IMPF-IND-1SG-SUFFIX arriçarriçar
arriçaria FUT-PRET-1SG-SUFFIX arriçarriçar

O lema correto é arriçar. É bom verificar se existe o verbo riçar no MorphoBr, incluindo-o também se for preciso. Essa mesma verificação deve ocorrer com os demais casos de fusão.

@leoalenc, no commit 9412b64 eliminei os lemas arraçarraçar, arregaçarregaçar e arriçarriçar com a função corLemma.
As formas de regaçar e riçar estão no MorphoBr, raçar deve ser adicionada? Não encontrei esse verbo em https://svn.spraakdata.gu.se/clt/naacl/2015/extract/data/freeling/base_forms_pt_verbs.txt.

As seguintes entradas foram criadas:

arraceis	arraçar+V+IMP+2+PL
arraces	arraçar+V+IMP+2+SG
arregaceis	arregaçar+V+IMP+2+PL
arregaces	arregaçar+V+IMP+2+SG
arriceis	arriçar+V+IMP+2+PL
arrices	arriçar+V+IMP+2+SG

Estas foram eliminadas:
deletadas.txt

@analununes, muito bem! Você pode, por favor, checar se o recurso, agora, contém todas as formas dos seguintes lemas: raçar, arraçar, riçar, arriçar, arregaçar e regaçar? Sobre raçar, parece existir, portanto, vamos incluí-lo, ver, por exemplo:

https://estraviz.org/Ra%C3%A7ar

@analununes
Copy link
Contributor

analununes commented Aug 30, 2021

@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1.
espurias.txt
Eliminei essas entradas no commit c14ac34. A tabela atualizada está aqui.

@arademaker
Copy link
Contributor

Bem, infelizmente é difícil avaliar as mudanças no repositório. Como falamos, os diffs na interface web não são possíveis e praticamente todos os arquivos foram modificados, logo o principio de menor diferença entre mudanças não foi preservado e os tamanhos de arquivos ainda parecem estar fora do limite suportado pela interface do GitHub.

image

Outra coisa que seria bom evitarmos é commit direto no master. Sempre importante fazer um branch com nome do issue e fazer um PR para o master.

@arademaker
Copy link
Contributor

correção, vi agora que vc está usando um branch... ok. Então imagino que vc fará um PR quando considerar que suas mudanças estão prontas para serem aplicadas no master, correto?

@leoalenc
Copy link
Contributor Author

leoalenc commented Sep 1, 2021

@leoalenc e @arademaker, fiz um documento com as formas espúrias indicadas por @leoalenc, no documento também deixei registrado os comandos que usei para encontrar as entradas. Esse documento não inclui as entradas do tipo 1.
espurias.txt
Eliminei essas entradas no commit c14ac34. A tabela atualizada está aqui.

Obrigado, @analununes. Notei que você usou o comando abaixo para extrair formas não terminadas em res:

~/MorphoBr/verbs$ egrep '[^(res)][[:space:]].*\+V\+INF\+2\+SG' * > ../../egrep

Na expressão regular [^(res)], porém, não se tem a negação da sequência res, mas a negação da classe de caracteres constituída por ), (, r, e e s. Desse modo, a expressão [^(res)][[:space:]], usada no egrep , permite extrair linhas em que não se tem ), (, r, e ou s seguido de algum tipo de espaço em branco.
Nesse caso, essa diferença semântica pode não ter feito muita diferença. Noutros casos, contudo, pode produzir resultados errados. Veja:

echo "comprasre" | grep -E "[^(res)]$"

Creio que o seguinte seria um comando mais adequado:

echo "anexa anexar+V+INF+2+SG" | awk '$1 !~ /res$/ && $2 ~ /.+\+V\+INF\+2\+SG/'

anexa anexar+V+INF+2+SG

echo "anexares anexar+V+INF+2+SG" | awk '$1 !~ /res$/ && $2 ~ /.+\+V\+INF\+2\+SG/'

Seria bom revisar as expressões. O que acha, @arademaker?

@analununes
Copy link
Contributor

commit 48684c3

veiste vir+V+PRF+2+SG errada
vieste vir+V+PRF+2+SG correta

quisermos FUT-SUBJ-1PL-SUFFIX querer forma correta
quismos FUT-SUBJ-1PL-SUFFIX querer forma errada

quisdes FUT-SUBJ-2PL-SUFFIX querer forma errada
quiserdes FUT-SUBJ-2PL-SUFFIX querer forma correta

commit c544e13
-aia na flexão -ar+V+IMP+2+SG

abaldeia abaldear+V+IMP+2+SG
abaldeaia abaldear+V+IMP+2+SG erro
abarbeia abarbear+V+IMP+2+SG
abarbeaia abarbear+V+IMP+2+SG erro

commit d3c40aa
abstrói, taba, abaular, agraudar, aguerrir e restringir

abstrói abstruir+V+IMP+2+SG erro
abstrui abstruir+V+IMP+2+SG

1. erros completamente arbitrários

aba PRES-IND-3SG-SUFFIX abar
taba PRES-IND-3SG-SUFFIX abar
abaule PRES-SUBJ-3SG-SUFFIX abaular
abaúle PRES-SUBJ-3SG-SUFFIX abaular
etc.

Em todas as formas de abaular,ocorre o ditongo au e não o hiato no radical:

1. inexistência de acento nas formas rizotônicas de _agraudar_:

agraude PRES-SUBJ-3SG-SUFFIX agraudar erro
agraúde PRES-SUBJ-3SG-SUFFIX agraudar
agraudem PRES-SUBJ-3PL-SUFFIX agraudar erro
agraúdem PRES-SUBJ-3PL-SUFFIX agraudar

Particípio estranho:

aguerrido PAST-PART-SUFFIX aguerrir
aguerto PAST-PART-SUFFIX aguerrir ???

restringto restringir+V+PTPST+M+SG

commit 8c2b517

INFL-INF-2SG não terminando em "res" #110

Forma suspeitare sem esse final do infinitivo flexionado segunda pessoa do singular do verbo suspeitar. procurar na lista de regulares se existem outras duplicatas do infinitivo flexionado na segunda pessoa do singular.

commit cf40cf0

Diversas formas do verbo agauchar com dois us:

agauche PRES-SUBJ-3SG-SUFFIX agauchar
agauúhe PRES-SUBJ-3SG-SUFFIX agauchar

commit f34611d

a) formas de aguerrir com j ou g em vez de r:

aguirra PRES-SUBJ-3SG-SUFFIX aguerrir
aguerja PRES-SUBJ-3SG-SUFFIX aguerrir
etc.

commit 4eddd71

formas de ajesuitar com z em vez de t (provenientes de Silva 2019?):

ajesuite PRES-SUBJ-3SG-SUFFIX ajesuitar
ajesuíze PRES-SUBJ-3SG-SUFFIX ajesuitar

commit f16c2b7

c) formas de anexar com gu em vez de x

anexe PRES-SUBJ-3SG-SUFFIX anexar
anegue PRES-SUBJ-3SG-SUFFIX anexar

commit daa354e

atido PAST-PART-SUFFIX ater
ateido PAST-PART-SUFFIX ater erro

commit 4d905b2

Esta questão foca os verbos da terceira conjugação do tipo de ferir e vestir que sofrem alternância vocálica na primeira pessoa > do singular do presente do indicativo e em todo o presente do subjuntivo, bem como nas formas derivadas do imperativo #102

commit c5b009d

E para gauchar temos também algumas várias formas com duplo uu #51

Arquivo com comandos e entradas eliminadas:
espurias.txt

Tabela de irregulares atualizada:
irregs.txt

@analununes
Copy link
Contributor

@analununes, segundo http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990, o verbo aspergir não sofre alternância vocálica no radical. Portanto, as formas sem alternância, provavelmente geradas pelas regras de my-irules.tdl, devem ser incluídas, pois não parecem constar no MorphoBr:

aspirja PRES-SUBJ-3SG-SUFFIX aspergir
aspirjam PRES-SUBJ-3PL-SUFFIX aspergir
aspirjas PRES-SUBJ-2SG-SUFFIX aspergir
aspirjais PRES-SUBJ-2PL-SUFFIX aspergir
aspirja PRES-SUBJ-1SG-SUFFIX aspergir
aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir
aspirjo PRES-IND-1SG-SUFFIX aspergir

Vou pesquisar se existem mesmo essas variantes, mas, seja como for, as formas com e devem ser incluídas.

@leoalenc, as formas geradas pelas regras não foram as esperadas:

aspirga	aspergir+V+SBJR+1+SG
aspirga	aspergir+V+SBJR+3+SG
aspirgais	aspergir+V+SBJR+2+PL
aspirgam	aspergir+V+SBJR+3+PL
aspirgamos	aspergir+V+SBJR+1+PL
aspirgas	aspergir+V+SBJR+2+SG
aspirgo	aspergir+V+PRS+1+SG

@analununes
Copy link
Contributor

No commit 6a4431a foram corrigidos os lemas arraçarraçar, arregaçarregaçar e arriçarriçar.

No commit 6da66b2 foram adicionados as formas geradas pelas regras de my-irules.tdl dos verbos: #76

raçar
priorizar
reaglutinar
desestimular
gestar
reconfigurar
credenciar
reaparelhar
pós-graduar
repactuar
superfaturar
reinstaurar
acessar
monitorar
realocar
elencar
contra-argumentar
operacionalizar
reapropriar

todas as entradas adicionadas estão neste arquivo:
adicionadas.txt

@arademaker
Copy link
Contributor

@analununes issues longos como este devem ser verificados com cuidado. Por favor, ao fechar, confirme que TODOS os casos acima foram tratados e sumarize as decisões.

@leoalenc
Copy link
Contributor Author

leoalenc commented Oct 20, 2021

@leoalenc, as formas geradas pelas regras não foram as esperadas:

aspirga aspergir+V+SBJR+1+SG
aspirga aspergir+V+SBJR+3+SG
aspirgais aspergir+V+SBJR+2+PL
aspirgam aspergir+V+SBJR+3+PL
aspirgamos aspergir+V+SBJR+1+PL
aspirgas aspergir+V+SBJR+2+SG
aspirgo aspergir+V+PRS+1+SG

@analununes, obrigado. De fato, esse verbo é irregular, apresentando variações no radical não contempladas pelas regras de my-irules.tdl. Você pode fazer as inclusões devidas seguindo o paradigma abaixo?

http://www.portaldalinguaportuguesa.org/index.php?action=lemma&lemma=1990

Veja que formas como eu aspirjo constam da conjugação do verbo aspergir segundo alguns sites:

https://www.conjugacao-de-verbos.com/verbo/aspergir.php

https://estraviz.org/conjugar.php?palavra=aspergir

Não sei se o primeiro é confiável, e o segundo é, na verdade, um dicionário da língua galega.
No momento, temos:

awk '$3 ~ /^aspergir$/ {print $1,$2,$3}' irregs.txt

aspirjo PRES-IND-1SG-SUFFIX aspergir
aspirjas PRES-SUBJ-2SG-SUFFIX aspergir
aspirjamos PRES-SUBJ-1PL-SUFFIX aspergir
aspirjam PRES-SUBJ-3PL-SUFFIX aspergir
aspirjais PRES-SUBJ-2PL-SUFFIX aspergir
aspirja PRES-SUBJ-1SG-SUFFIX aspergir
aspirja PRES-SUBJ-3SG-SUFFIX aspergir

Cunha e Cintra (1985, p. 409) não abonam essas formas com i, mas prefiro deixá-las, pois podem ocorrer dialetalmente.

@leoalenc
Copy link
Contributor Author

@analununes, mais erros de grafia:

awk '$3 ~ /^ganhar$/ {print $1,$2,$3}' irregs.txt

ganhe PRES-SUBJ-3SG-SUFFIX ganhar
gangue PRES-SUBJ-3SG-SUFFIX ganhar ERRO
ganhe PRES-SUBJ-1SG-SUFFIX ganhar
gangue PRES-SUBJ-1SG-SUFFIX ganhar ERRO
ganhei PERF-IND-1SG-SUFFIX ganhar
ganguei PERF-IND-1SG-SUFFIX ganhar ERRO
ganheis PRES-SUBJ-2PL-SUFFIX ganhar
gangueis PRES-SUBJ-2PL-SUFFIX ganhar ERRO
ganhem PRES-SUBJ-3PL-SUFFIX ganhar
ganguem PRES-SUBJ-3PL-SUFFIX ganhar ERRO
ganhemos PRES-SUBJ-1PL-SUFFIX ganhar
ganguemos PRES-SUBJ-1PL-SUFFIX ganhar ERRO
ganhes PRES-SUBJ-2SG-SUFFIX ganhar
gangues PRES-SUBJ-2SG-SUFFIX ganhar ERRO
ganhado PAST-PART-SUFFIX ganhar
ganho PAST-PART-SUFFIX ganhar

Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo?

@arademaker
Copy link
Contributor

@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos.

@analununes
Copy link
Contributor

@analununes vamos tentar fechar este issue? Esta ficando longo e seria bom fecharmos para no futuro tratarmos de erros em issues mais específicos.

Pode ser! Vou revisar.

analununes added a commit that referenced this issue Nov 10, 2021
@analununes
Copy link
Contributor

@analununes, mais erros de grafia:

awk '$3 ~ /^ganhar$/ {print $1,$2,$3}' irregs.txt

ganhe PRES-SUBJ-3SG-SUFFIX ganhar
gangue PRES-SUBJ-3SG-SUFFIX ganhar ERRO
ganhe PRES-SUBJ-1SG-SUFFIX ganhar
gangue PRES-SUBJ-1SG-SUFFIX ganhar ERRO
ganhei PERF-IND-1SG-SUFFIX ganhar
ganguei PERF-IND-1SG-SUFFIX ganhar ERRO
ganheis PRES-SUBJ-2PL-SUFFIX ganhar
gangueis PRES-SUBJ-2PL-SUFFIX ganhar ERRO
ganhem PRES-SUBJ-3PL-SUFFIX ganhar
ganguem PRES-SUBJ-3PL-SUFFIX ganhar ERRO
ganhemos PRES-SUBJ-1PL-SUFFIX ganhar
ganguemos PRES-SUBJ-1PL-SUFFIX ganhar ERRO
ganhes PRES-SUBJ-2SG-SUFFIX ganhar
gangues PRES-SUBJ-2SG-SUFFIX ganhar ERRO
ganhado PAST-PART-SUFFIX ganhar
ganho PAST-PART-SUFFIX ganhar

Parece haver um padrão aí, troca do h dígrafo nh por alguma outra letra. Pode checar se há mais casos desse tipo?

Com o comando:
MorphoBr/verbs$ egrep '^[^h]*[[:space:]].*nh' ./*
encontrei apenas entradas que são flexões do verbo ganhar, que foram eliminadas no commit c16f702:

gangue	ganhar+V+SBJR+3+SG
gangue	ganhar+V+SBJR+1+SG
gangue	ganhar+V+IMP+3+SG
ganguei	ganhar+V+PRF+1+SG
gangueis	ganhar+V+SBJR+2+PL
ganguem	ganhar+V+SBJR+3+PL
ganguem	ganhar+V+IMP+3+PL
ganguemos	ganhar+V+SBJR+1+PL
ganguemos	ganhar+V+IMP+1+PL
gangues	ganhar+V+SBJR+2+SG

@analununes
Copy link
Contributor

Exceto os casos de velha ortografia #93 e adição de formas do verbo aspergir #120 que possuem issues próprias, todos os problemas relatados nessa issue foram resolvidos.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

3 participants