Mudanças entre as edições de "Corretor Ortográfico"

De LCAD
Ir para: navegação, pesquisa
(Experimentos com o Corretor Ortográfico)
Linha 70: Linha 70:
  
 
A explicação sobre cada modo pode ser obtida no link [http://aspell.net/man-html/Notes-on-the-Different-Suggestion-Modes.html#Notes-on-the-Different-Suggestion-Modes Modos de Sugestão]
 
A explicação sobre cada modo pode ser obtida no link [http://aspell.net/man-html/Notes-on-the-Different-Suggestion-Modes.html#Notes-on-the-Different-Suggestion-Modes Modos de Sugestão]
 +
 +
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas do Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é:
 +
FrequencyScore = 1 + ln(Frequency)
 +
Rank = AspellScore / FrequencyScore
 +
 +
A tabela abaixo mostra os resultados obtidos.
 +
 +
<br />
 +
 +
{| border=1
 +
|- align="center"
 +
| '''Dicionário/Modo'''
 +
| '''Palavras'''
 +
| '''Corretas'''
 +
| '''Erradas'''
 +
| '''Erro percentual'''
 +
| '''Acerto percentual'''
 +
 +
|- align="center"
 +
| '''Aspell - slow'''
 +
| 923
 +
| 315
 +
| 171
 +
| 28,13%
 +
| 71,88%
 +
 +
|- align="center"
 +
| '''Scae - ultra'''
 +
| 923
 +
| 129
 +
| 140
 +
| 17,63%
 +
| 82,37%
 +
 +
|- align="center"
 +
| '''Scae - fast'''
 +
| 923
 +
| 129
 +
| 140
 +
| 17,63%
 +
| 82,37%
 +
 +
|- align="center"
 +
| '''Scae - normal'''
 +
| 923
 +
| 129
 +
| 104
 +
| 13,10%
 +
| 86,90%
 +
 +
|- align="center"
 +
| '''Scae - slow'''
 +
| 923
 +
| 129
 +
| 100
 +
| 12,59%
 +
| 87,41%
 +
 +
|- align="center"
 +
| '''Scae - bad-spellers'''
 +
| 923
 +
| 129
 +
| 100
 +
| 12,59%
 +
| 87,41%
 +
|}
 +
 +
<br />
  
 
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==
 
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==

Edição das 07h36min de 25 de fevereiro de 2008

Experimentos com o Corretor Ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas do Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:

FrequencyScore = 1 + ln(Frequency)
Rank = AspellScore / FrequencyScore

A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3700 81,96%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Aspell Completo_corrigido prep. 3742 83,12%