Mudanças entre as edições de "Corretor Ortográfico"

De LCAD
Ir para: navegação, pesquisa
(New page: __TOC__ == Experimentos com o corretor ortográfico == Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi config...)
 
Linha 1: Linha 1:
 
__TOC__
 
__TOC__
== Experimentos com o corretor ortográfico ==
+
== Experimentos com o Corretor Ortográfico ==
 
Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi configurado para utilizar como  dicionário o '''dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA'''. A estratégia de sugestão do ASPELL pode ser obtida no link [http://aspell.net/man-html/Aspell-Suggestion-Strategy.html#Aspell-Suggestion-Strategy Estratégia de Sugestão].  
 
Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi configurado para utilizar como  dicionário o '''dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA'''. A estratégia de sugestão do ASPELL pode ser obtida no link [http://aspell.net/man-html/Aspell-Suggestion-Strategy.html#Aspell-Suggestion-Strategy Estratégia de Sugestão].  
  
Linha 71: Linha 71:
 
A explicação sobre cada modo pode ser obtida no link [http://aspell.net/man-html/Notes-on-the-Different-Suggestion-Modes.html#Notes-on-the-Different-Suggestion-Modes Modos de Sugestão]
 
A explicação sobre cada modo pode ser obtida no link [http://aspell.net/man-html/Notes-on-the-Different-Suggestion-Modes.html#Notes-on-the-Different-Suggestion-Modes Modos de Sugestão]
  
== Experimentos com as tabelas corrigidas pelo corretor ortográfico ==
+
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==
  
 
<br />
 
<br />

Edição das 06h39min de 19 de fevereiro de 2008

Experimentos com o Corretor Ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3700 81,96%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

303 TFIDF Aspell Completo_corrigido prep. 3742 83,12%