Mudanças entre as edições de "Corretor Ortográfico"

De LCAD
Ir para: navegação, pesquisa
(Experimentos com o Corretor Ortográfico)
(Experimentos com o Corretor Ortográfico)
Linha 72: Linha 72:
  
 
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é:
 
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é:
   <math>FrequencyScore = 1 + ln(Frequency) \Rightarrow</math>
+
   <math>FrequencyScore = 1 + ln(Frequency)</math>
  <math>Fv: Cv \Rightarrow (Cv, \mathbb{R})</math> (para arco)
+
  <math>Rank = AspellScore / FrequencyScore</math>
 +
 
   
 
   
Rank = AspellScore / FrequencyScore
 
  
 
A tabela abaixo mostra os resultados obtidos.
 
A tabela abaixo mostra os resultados obtidos.

Edição das 07h50min de 25 de fevereiro de 2008

Experimentos com o Corretor Ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:

 <math>FrequencyScore = 1 + ln(Frequency)</math>
<math>Rank = AspellScore / FrequencyScore</math>


A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3700 81,96%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Aspell Completo_corrigido prep. 3742 83,12%