Mudanças entre as edições de "Corretor Ortográfico"
(→Experimentos com o Corretor Ortográfico) |
(→Experimentos com o Corretor Ortográfico) |
||
Linha 72: | Linha 72: | ||
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é: | Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é: | ||
− | + | <math>FrequencyScore = 1 + ln(Frequency)</math> | |
<math>Rank = AspellScore / FrequencyScore</math> | <math>Rank = AspellScore / FrequencyScore</math> | ||
− | |||
− | |||
A tabela abaixo mostra os resultados obtidos. | A tabela abaixo mostra os resultados obtidos. |
Edição das 07h50min de 25 de fevereiro de 2008
Índice
Experimentos com o Corretor Ortográfico
Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.
O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.
Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.
Dicionário/Modo | Palavras | Corretas | Erradas | Erro percentual | Acerto percentual |
Aspell - slow | 923 | 315 | 171 | 28,13% | 71,88% |
Scae - ultra | 923 | 129 | 140 | 17,63% | 82,37% |
Scae - fast | 923 | 129 | 140 | 17,63% | 82,37% |
Scae - normal | 923 | 129 | 104 | 13,10% | 86,90% |
Scae - slow | 923 | 129 | 100 | 12,59% | 87,41% |
Scae - bad-spellers | 923 | 129 | 100 | 12,59% | 87,41% |
A explicação sobre cada modo pode ser obtida no link Modos de Sugestão
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:
<math>FrequencyScore = 1 + ln(Frequency)</math> <math>Rank = AspellScore / FrequencyScore</math>
A tabela abaixo mostra os resultados obtidos.
Dicionário/Modo | Palavras | Corretas | Erradas | Erro percentual | Acerto percentual |
Aspell - slow | 923 | 315 | 171 | 28,13% | 71,88% |
Scae - ultra | 923 | 129 | 140 | 17,63% | 82,37% |
Scae - fast | 923 | 129 | 140 | 17,63% | 82,37% |
Scae - normal | 923 | 129 | 104 | 13,10% | 86,90% |
Scae - slow | 923 | 129 | 100 | 12,59% | 87,41% |
Scae - bad-spellers | 923 | 129 | 100 | 12,59% | 87,41% |
Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico
Tabelas | Versão | Peso | Correção | Dicionário | Classes gramaticais | Tam. lexicon | Desempenho
(1 - one_error) |
CNAE_SUBCLASSE_110
DADOS_VITORIA_SUB_110 |
303 | TF | Sem | Completo | art. conj. contr.
interj. prep. pron. |
3863 | 82,45% |
CNAE_SUBCLASSE_110
DADOS_VITORIA_SUB_110 |
303 | TF | Manual | Completo_corrigido | art. conj. contr.
interj. prep. pron. |
3661 | 82,82% |
CNAE_SUBCLASSE_110
DADOS_VITORIA_SUB_110 |
303 | TF | Aspell | Completo_corrigido | art. conj. contr.
interj. prep. pron. |
3700 | 81,96% |
CNAE_SUBCLASSE_110
DADOS_VITORIA_SUB_110 |
303 | TFIDF | Sem | Completo | prep. | 3905 | 82,88% |
CNAE_SUBCLASSE_110
DADOS_VITORIA_SUB_110 |
303 | TFIDF | Manual | Completo_corrigido | prep. | 3703 | 83,73% |
CNAE_SUBCLASSE_110
DADOS_VITORIA_SUB_110 |
303 | TFIDF | Aspell | Completo_corrigido | prep. | 3742 | 83,12% |