Corretor Ortográfico

De LCAD
Ir para: navegação, pesquisa

Experimentos com o Corretor Ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:

FrequencyScore = 1 + ln(Frequency)
Rank = AspellScore / FrequencyScore

A tabela abaixo mostra os resultados obtidos.


Dicionário com Estatística/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 171 191 25,40% 74,60%
Scae - ultra 923 129 105 13,22% 86,78%
Scae - fast 923 129 105 13,22% 86,78%
Scae - normal 923 129 74 9,32% 90,68%
Scae - slow 923 129 69 8,69% 91,31%
Scae - bad-spellers 923 129 78 9,82% 90,18%


Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico

Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_VITORIA_SUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 1639 para a segunda. Os limites do teste foram 1639 a 3280.


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3677 81,90%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Aspell Completo_corrigido prep. 3719 83,24%


Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Sem Completo art. conj. contr.

interj. prep. pron.

4563 64,89%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

 ?  ?%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3311 67,55%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Sem Completo prep. 4598 66,87%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Manual Completo_corrigido prep.  ?  ?%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Aspell Completo_corrigido prep. 3350 69,79%