Corretor Ortográfico

De LCAD
Revisão de 06h36min de 19 de fevereiro de 2008 por Administrador (discussão | contribs) (New page: __TOC__ == Experimentos com o corretor ortográfico == Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi config...)
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)
Ir para: navegação, pesquisa

Experimentos com o corretor ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Experimentos com as tabelas corrigidas pelo corretor ortográfico


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3700 81,96%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Aspell Completo_corrigido prep. 3742 83,12%