Mudanças entre as edições de "Corretor Ortográfico"

De LCAD
Ir para: navegação, pesquisa
(Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico)
 
(10 revisões intermediárias por um outro usuário não estão sendo mostradas)
Linha 1: Linha 1:
 
__TOC__
 
__TOC__
 +
[[category:SCAE]]
 
== Experimentos com o Corretor Ortográfico ==
 
== Experimentos com o Corretor Ortográfico ==
 
Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi configurado para utilizar como  dicionário o '''dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA'''. A estratégia de sugestão do ASPELL pode ser obtida no link [http://aspell.net/man-html/Aspell-Suggestion-Strategy.html#Aspell-Suggestion-Strategy Estratégia de Sugestão].  
 
Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi configurado para utilizar como  dicionário o '''dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA'''. A estratégia de sugestão do ASPELL pode ser obtida no link [http://aspell.net/man-html/Aspell-Suggestion-Strategy.html#Aspell-Suggestion-Strategy Estratégia de Sugestão].  
Linha 141: Linha 142:
 
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==
 
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==
  
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE.
+
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_VITORIA_SUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 1639 para a segunda. Os limites do teste foram 1639 a 3280.
 +
 
 
<br />
 
<br />
  
Linha 228: Linha 230:
  
 
<br />
 
<br />
 +
 +
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.
 +
 +
<br />
 +
 +
{| border=1
 +
|- align="center"
 +
| '''Tabelas'''
 +
| '''Versão'''
 +
| '''Peso'''
 +
| '''Correção'''
 +
| '''Dicionário'''
 +
| '''Classes gramaticais'''
 +
| '''Tam. lexicon'''
 +
| '''Desempenho'''
 +
'''(1 - one_error)'''
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TF
 +
| Sem
 +
| Completo
 +
| art. conj. contr.
 +
interj. prep. pron.
 +
| 4563
 +
| 64,89%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TF
 +
| Manual
 +
| Completo_corrigido
 +
| art. conj. contr.
 +
interj. prep. pron.
 +
| ?
 +
| ?%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TF
 +
| Aspell
 +
| Completo_corrigido
 +
| art. conj. contr.
 +
interj. prep. pron.
 +
| 3311
 +
| 67,55%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TFIDF
 +
| Sem
 +
| Completo
 +
| prep.
 +
| 4598
 +
| 66,87%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TFIDF
 +
| Manual
 +
| Completo_corrigido
 +
| prep.
 +
| ?
 +
| ?%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TFIDF
 +
| Aspell
 +
| Completo_corrigido
 +
| prep.
 +
| 3350
 +
| 69,79%
 +
 +
|}

Edição atual tal como às 16h30min de 14 de setembro de 2012

Experimentos com o Corretor Ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:

FrequencyScore = 1 + ln(Frequency)
Rank = AspellScore / FrequencyScore

A tabela abaixo mostra os resultados obtidos.


Dicionário com Estatística/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 171 191 25,40% 74,60%
Scae - ultra 923 129 105 13,22% 86,78%
Scae - fast 923 129 105 13,22% 86,78%
Scae - normal 923 129 74 9,32% 90,68%
Scae - slow 923 129 69 8,69% 91,31%
Scae - bad-spellers 923 129 78 9,82% 90,18%


Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico

Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_VITORIA_SUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 1639 para a segunda. Os limites do teste foram 1639 a 3280.


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3677 81,90%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Aspell Completo_corrigido prep. 3719 83,24%


Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Sem Completo art. conj. contr.

interj. prep. pron.

4563 64,89%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

 ?  ?%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3311 67,55%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Sem Completo prep. 4598 66,87%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Manual Completo_corrigido prep.  ?  ?%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Aspell Completo_corrigido prep. 3350 69,79%