Mudanças entre as edições de "Corretor Ortográfico"

De LCAD
Ir para: navegação, pesquisa
(Experimentos com o Corretor Ortográfico)
 
(20 revisões intermediárias por um outro usuário não estão sendo mostradas)
Linha 1: Linha 1:
 
__TOC__
 
__TOC__
 +
[[category:SCAE]]
 
== Experimentos com o Corretor Ortográfico ==
 
== Experimentos com o Corretor Ortográfico ==
 
Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi configurado para utilizar como  dicionário o '''dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA'''. A estratégia de sugestão do ASPELL pode ser obtida no link [http://aspell.net/man-html/Aspell-Suggestion-Strategy.html#Aspell-Suggestion-Strategy Estratégia de Sugestão].  
 
Os experimentos do corretor ortográfico foram realizados utilizando o software [http://aspell.net/ Aspell]. Esse software foi configurado para utilizar como  dicionário o '''dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA'''. A estratégia de sugestão do ASPELL pode ser obtida no link [http://aspell.net/man-html/Aspell-Suggestion-Strategy.html#Aspell-Suggestion-Strategy Estratégia de Sugestão].  
Linha 72: Linha 73:
  
 
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é:
 
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o ''score'' de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor ''rank''. O cálculo do ''rank'' é:
  <math>Fn: Cn \Rightarrow (Cn, \mathbb{R})</math> (para nó) e
 
<math>Fv: Cv \Rightarrow (Cv, \mathbb{R})</math> (para arco)
 
 
  FrequencyScore = 1 + ln(Frequency)
 
  FrequencyScore = 1 + ln(Frequency)
 
  Rank = AspellScore / FrequencyScore
 
  Rank = AspellScore / FrequencyScore
Linha 83: Linha 82:
 
{| border=1
 
{| border=1
 
|- align="center"
 
|- align="center"
| '''Dicionário/Modo'''
+
| '''Dicionário com Estatística/Modo'''
 
| '''Palavras'''
 
| '''Palavras'''
 
| '''Corretas'''  
 
| '''Corretas'''  
Linha 93: Linha 92:
 
| '''Aspell - slow'''
 
| '''Aspell - slow'''
 
| 923
 
| 923
| 315
 
 
| 171
 
| 171
| 28,13%
+
| 191
| 71,88%
+
| 25,40%
 +
| 74,60%
  
 
|- align="center"
 
|- align="center"
Linha 102: Linha 101:
 
| 923
 
| 923
 
| 129
 
| 129
| 140
+
| 105
| 17,63%
+
| 13,22%
| 82,37%
+
| 86,78%
  
 
|- align="center"
 
|- align="center"
Linha 110: Linha 109:
 
| 923
 
| 923
 
| 129
 
| 129
| 140
+
| 105
| 17,63%
+
| 13,22%
| 82,37%
+
| 86,78%
  
 
|- align="center"
 
|- align="center"
Linha 118: Linha 117:
 
| 923
 
| 923
 
| 129
 
| 129
| 104
+
| 74
| 13,10%
+
| 9,32%
| 86,90%
+
| 90,68%
  
 
|- align="center"
 
|- align="center"
Linha 126: Linha 125:
 
| 923
 
| 923
 
| 129
 
| 129
| 100
+
| 69
| 12,59%
+
| 8,69%
| 87,41%
+
| 91,31%
  
 
|- align="center"
 
|- align="center"
Linha 134: Linha 133:
 
| 923
 
| 923
 
| 129
 
| 129
| 100
+
| 78
| 12,59%
+
| 9,82%
| 87,41%
+
| 90,18%
 
|}
 
|}
  
Linha 142: Linha 141:
  
 
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==
 
== Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico ==
 +
 +
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_VITORIA_SUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 1639 para a segunda. Os limites do teste foram 1639 a 3280.
  
 
<br />
 
<br />
Linha 160: Linha 161:
 
| CNAE_SUBCLASSE_110
 
| CNAE_SUBCLASSE_110
 
DADOS_VITORIA_SUB_110
 
DADOS_VITORIA_SUB_110
| 303
+
| 345
 
| TF
 
| TF
 
| Sem
 
| Sem
Linha 172: Linha 173:
 
| CNAE_SUBCLASSE_110
 
| CNAE_SUBCLASSE_110
 
DADOS_VITORIA_SUB_110
 
DADOS_VITORIA_SUB_110
| 303
+
| 345
 
| TF
 
| TF
 
| Manual
 
| Manual
Linha 184: Linha 185:
 
| CNAE_SUBCLASSE_110
 
| CNAE_SUBCLASSE_110
 
DADOS_VITORIA_SUB_110
 
DADOS_VITORIA_SUB_110
| 303
+
| 345
 
| TF
 
| TF
 
| Aspell
 
| Aspell
Linha 190: Linha 191:
 
| art. conj. contr.
 
| art. conj. contr.
 
interj. prep. pron.
 
interj. prep. pron.
| 3700
+
| 3677
| 81,96%
+
| 81,90%
  
 
|- align="center"
 
|- align="center"
 
| CNAE_SUBCLASSE_110
 
| CNAE_SUBCLASSE_110
 
DADOS_VITORIA_SUB_110
 
DADOS_VITORIA_SUB_110
| 303
+
| 345
 
| TFIDF
 
| TFIDF
 
| Sem
 
| Sem
Linha 207: Linha 208:
 
| CNAE_SUBCLASSE_110
 
| CNAE_SUBCLASSE_110
 
DADOS_VITORIA_SUB_110
 
DADOS_VITORIA_SUB_110
| 303
+
| 345
 
| TFIDF
 
| TFIDF
 
| Manual
 
| Manual
Linha 218: Linha 219:
 
| CNAE_SUBCLASSE_110
 
| CNAE_SUBCLASSE_110
 
DADOS_VITORIA_SUB_110
 
DADOS_VITORIA_SUB_110
| 303
+
| 345
 
| TFIDF
 
| TFIDF
 
| Aspell
 
| Aspell
 
| Completo_corrigido
 
| Completo_corrigido
 
| prep.
 
| prep.
| 3742
+
| 3719
| 83,12%
+
| 83,24%
  
 
|}
 
|}
  
 
<br />
 
<br />
 +
 +
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.
 +
 +
<br />
 +
 +
{| border=1
 +
|- align="center"
 +
| '''Tabelas'''
 +
| '''Versão'''
 +
| '''Peso'''
 +
| '''Correção'''
 +
| '''Dicionário'''
 +
| '''Classes gramaticais'''
 +
| '''Tam. lexicon'''
 +
| '''Desempenho'''
 +
'''(1 - one_error)'''
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TF
 +
| Sem
 +
| Completo
 +
| art. conj. contr.
 +
interj. prep. pron.
 +
| 4563
 +
| 64,89%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TF
 +
| Manual
 +
| Completo_corrigido
 +
| art. conj. contr.
 +
interj. prep. pron.
 +
| ?
 +
| ?%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TF
 +
| Aspell
 +
| Completo_corrigido
 +
| art. conj. contr.
 +
interj. prep. pron.
 +
| 3311
 +
| 67,55%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TFIDF
 +
| Sem
 +
| Completo
 +
| prep.
 +
| 4598
 +
| 66,87%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TFIDF
 +
| Manual
 +
| Completo_corrigido
 +
| prep.
 +
| ?
 +
| ?%
 +
 +
|- align="center"
 +
| CNAE_SUBCLASSE_110
 +
DADOS_BH_SUB_110
 +
| 410
 +
| TFIDF
 +
| Aspell
 +
| Completo_corrigido
 +
| prep.
 +
| 3350
 +
| 69,79%
 +
 +
|}

Edição atual tal como às 16h30min de 14 de setembro de 2012

Experimentos com o Corretor Ortográfico

Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.

O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.

Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.


Dicionário/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 315 171 28,13% 71,88%
Scae - ultra 923 129 140 17,63% 82,37%
Scae - fast 923 129 140 17,63% 82,37%
Scae - normal 923 129 104 13,10% 86,90%
Scae - slow 923 129 100 12,59% 87,41%
Scae - bad-spellers 923 129 100 12,59% 87,41%


A explicação sobre cada modo pode ser obtida no link Modos de Sugestão

Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:

FrequencyScore = 1 + ln(Frequency)
Rank = AspellScore / FrequencyScore

A tabela abaixo mostra os resultados obtidos.


Dicionário com Estatística/Modo Palavras Corretas Erradas Erro percentual Acerto percentual
Aspell - slow 923 171 191 25,40% 74,60%
Scae - ultra 923 129 105 13,22% 86,78%
Scae - fast 923 129 105 13,22% 86,78%
Scae - normal 923 129 74 9,32% 90,68%
Scae - slow 923 129 69 8,69% 91,31%
Scae - bad-spellers 923 129 78 9,82% 90,18%


Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico

Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_VITORIA_SUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 1639 para a segunda. Os limites do teste foram 1639 a 3280.


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Sem Completo art. conj. contr.

interj. prep. pron.

3863 82,45%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

3661 82,82%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3677 81,90%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Sem Completo prep. 3905 82,88%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Manual Completo_corrigido prep. 3703 83,73%
CNAE_SUBCLASSE_110

DADOS_VITORIA_SUB_110

345 TFIDF Aspell Completo_corrigido prep. 3719 83,24%


Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.


Tabelas Versão Peso Correção Dicionário Classes gramaticais Tam. lexicon Desempenho

(1 - one_error)

CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Sem Completo art. conj. contr.

interj. prep. pron.

4563 64,89%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Manual Completo_corrigido art. conj. contr.

interj. prep. pron.

 ?  ?%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TF Aspell Completo_corrigido art. conj. contr.

interj. prep. pron.

3311 67,55%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Sem Completo prep. 4598 66,87%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Manual Completo_corrigido prep.  ?  ?%
CNAE_SUBCLASSE_110

DADOS_BH_SUB_110

410 TFIDF Aspell Completo_corrigido prep. 3350 69,79%