Mudanças entre as edições de "Corretor Ortográfico"
 (→Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico)  | 
				 (→Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico)  | 
				||
| Linha 231: | Linha 231: | ||
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.  | Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.  | ||
| + | |||
| + | {| border=1  | ||
| + | |- align="center"  | ||
| + | | '''Tabelas'''  | ||
| + | | '''Versão'''  | ||
| + | | '''Peso'''   | ||
| + | | '''Correção'''   | ||
| + | | '''Dicionário'''   | ||
| + | | '''Classes gramaticais'''  | ||
| + | | '''Tam. lexicon'''  | ||
| + | | '''Desempenho'''  | ||
| + | '''(1 - one_error)'''  | ||
| + | |||
| + | |- align="center"  | ||
| + | | CNAE_SUBCLASSE_110  | ||
| + | DADOS_BH_SUB_110  | ||
| + | | 410  | ||
| + | | TF  | ||
| + | | Sem  | ||
| + | | Completo  | ||
| + | | art. conj. contr.  | ||
| + | interj. prep. pron.  | ||
| + | | 4563  | ||
| + | | 64,89%  | ||
| + | |||
| + | |- align="center"  | ||
| + | | CNAE_SUBCLASSE_110  | ||
| + | DADOS_BH_SUB_110  | ||
| + | | 410  | ||
| + | | TF  | ||
| + | | Manual  | ||
| + | | Completo_corrigido  | ||
| + | | art. conj. contr.  | ||
| + | interj. prep. pron.  | ||
| + | | ?  | ||
| + | | ?%  | ||
| + | |||
| + | |- align="center"  | ||
| + | | CNAE_SUBCLASSE_110  | ||
| + | DADOS_BH_SUB_110  | ||
| + | | 410  | ||
| + | | TF  | ||
| + | | Aspell  | ||
| + | | Completo_corrigido  | ||
| + | | art. conj. contr.  | ||
| + | interj. prep. pron.  | ||
| + | | 3311  | ||
| + | | 67,55%  | ||
| + | |||
| + | |- align="center"  | ||
| + | | CNAE_SUBCLASSE_110  | ||
| + | DADOS_BH_SUB_110  | ||
| + | | 410  | ||
| + | | TFIDF  | ||
| + | | Sem  | ||
| + | | Completo  | ||
| + | | prep.  | ||
| + | | 4598  | ||
| + | | 66,87%  | ||
| + | |||
| + | |- align="center"  | ||
| + | | CNAE_SUBCLASSE_110  | ||
| + | DADOS_BH_SUB_110  | ||
| + | | 410  | ||
| + | | TFIDF  | ||
| + | | Manual  | ||
| + | | Completo_corrigido  | ||
| + | | prep.  | ||
| + | | ?  | ||
| + | | ?%  | ||
| + | |||
| + | |- align="center"  | ||
| + | | CNAE_SUBCLASSE_110  | ||
| + | DADOS_BH_SUB_110  | ||
| + | | 410  | ||
| + | | TFIDF  | ||
| + | | Aspell  | ||
| + | | Completo_corrigido  | ||
| + | | prep.  | ||
| + | | 3350  | ||
| + | | 69,79%  | ||
| + | |||
| + | |}  | ||
Edição das 06h41min de 14 de março de 2008
Índice
Experimentos com o Corretor Ortográfico
Os experimentos do corretor ortográfico foram realizados utilizando o software Aspell. Esse software foi configurado para utilizar como dicionário o dicionário do NILC mais as palavras corrigidas das tabelas CNAE e DADOS_VITORIA. A estratégia de sugestão do ASPELL pode ser obtida no link Estratégia de Sugestão.
O primeiro passo deste experimento foi coletar uma base de palavras escritas de maneira errada e a sua forma correta. Aquelas foram obtidas das tabelas CNAE_110_SUBCLASSE, CNAE_200_ATIVIDADE, CNAE_200_SUBCLASSE, DADOS_VITORIA_SUB_110 e DADOS_VITORIA_SUB_200, e essas foram obtidas das tabelas CNAE_110_SUBCLASSE_CORRIGIDO, CNAE_200_ATIVIDADE_CORRIGIDO, CNAE_200_SUBCLASSE_CORRIGIDO, DADOS_VITORIA_SUB_110_CORRIGIDO e DADOS_VITORIA_SUB_200_CORRIGIDO. Assim temos um mapeamento das palavras escritas de forma errada e sua forma correta, totalizando 923 palavras erradas.
Em seguida, essa coleção de palavras erradas foi passada para o Aspell corrigí-las. A tabela abaixo mostra os resultados obtidos.
| Dicionário/Modo | Palavras | Corretas | Erradas | Erro percentual | Acerto percentual | 
| Aspell - slow | 923 | 315 | 171 | 28,13% | 71,88% | 
| Scae - ultra | 923 | 129 | 140 | 17,63% | 82,37% | 
| Scae - fast | 923 | 129 | 140 | 17,63% | 82,37% | 
| Scae - normal | 923 | 129 | 104 | 13,10% | 86,90% | 
| Scae - slow | 923 | 129 | 100 | 12,59% | 87,41% | 
| Scae - bad-spellers | 923 | 129 | 100 | 12,59% | 87,41% | 
A explicação sobre cada modo pode ser obtida no link Modos de Sugestão
Com a finalidade de melhorar os resultados obtidos na tabela anterior, foi considerado a frequência das palavras nas tabelas e o score de cada palavra sugerida pelo Aspell. Dentre as palavras sugeridas pelo Aspell, a palavra correta será a que tiver o menor rank. O cálculo do rank é:
FrequencyScore = 1 + ln(Frequency) Rank = AspellScore / FrequencyScore
A tabela abaixo mostra os resultados obtidos.
| Dicionário com Estatística/Modo | Palavras | Corretas | Erradas | Erro percentual | Acerto percentual | 
| Aspell - slow | 923 | 171 | 191 | 25,40% | 74,60% | 
| Scae - ultra | 923 | 129 | 105 | 13,22% | 86,78% | 
| Scae - fast | 923 | 129 | 105 | 13,22% | 86,78% | 
| Scae - normal | 923 | 129 | 74 | 9,32% | 90,68% | 
| Scae - slow | 923 | 129 | 69 | 8,69% | 91,31% | 
| Scae - bad-spellers | 923 | 129 | 78 | 9,82% | 90,18% | 
Experimentos com as Tabelas Corrigidas pelo Corretor Ortográfico
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_VITORIA_SUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 1639 para a segunda. Os limites do teste foram 1639 a 3280.
| Tabelas | Versão | Peso | Correção | Dicionário | Classes gramaticais | Tam. lexicon |  Desempenho
 (1 - one_error)  | 
|  CNAE_SUBCLASSE_110
 DADOS_VITORIA_SUB_110  | 
345 | TF | Sem | Completo |  art. conj. contr.
 interj. prep. pron.  | 
3863 | 82,45% | 
|  CNAE_SUBCLASSE_110
 DADOS_VITORIA_SUB_110  | 
345 | TF | Manual | Completo_corrigido |  art. conj. contr.
 interj. prep. pron.  | 
3661 | 82,82% | 
|  CNAE_SUBCLASSE_110
 DADOS_VITORIA_SUB_110  | 
345 | TF | Aspell | Completo_corrigido |  art. conj. contr.
 interj. prep. pron.  | 
3677 | 81,90% | 
|  CNAE_SUBCLASSE_110
 DADOS_VITORIA_SUB_110  | 
345 | TFIDF | Sem | Completo | prep. | 3905 | 82,88% | 
|  CNAE_SUBCLASSE_110
 DADOS_VITORIA_SUB_110  | 
345 | TFIDF | Manual | Completo_corrigido | prep. | 3703 | 83,73% | 
|  CNAE_SUBCLASSE_110
 DADOS_VITORIA_SUB_110  | 
345 | TFIDF | Aspell | Completo_corrigido | prep. | 3719 | 83,24% | 
Os experimentos a seguir foram realizados utilizando as tabelas corrigidas pelo corretor ortográfico e o core classificardor VS_CORE. Para o conjunto de tabelas CNAE_SUBCLASSE_110 e DADOS_BHSUB_110 os limites do treino foi de 0 a 1182 para a primeira tabela e 0 a 2330 para a segunda. Os limites do teste foram 2331 a 3495.
| Tabelas | Versão | Peso | Correção | Dicionário | Classes gramaticais | Tam. lexicon |  Desempenho
 (1 - one_error)  | 
|  CNAE_SUBCLASSE_110
 DADOS_BH_SUB_110  | 
410 | TF | Sem | Completo |  art. conj. contr.
 interj. prep. pron.  | 
4563 | 64,89% | 
|  CNAE_SUBCLASSE_110
 DADOS_BH_SUB_110  | 
410 | TF | Manual | Completo_corrigido |  art. conj. contr.
 interj. prep. pron.  | 
? | ?% | 
|  CNAE_SUBCLASSE_110
 DADOS_BH_SUB_110  | 
410 | TF | Aspell | Completo_corrigido |  art. conj. contr.
 interj. prep. pron.  | 
3311 | 67,55% | 
|  CNAE_SUBCLASSE_110
 DADOS_BH_SUB_110  | 
410 | TFIDF | Sem | Completo | prep. | 4598 | 66,87% | 
|  CNAE_SUBCLASSE_110
 DADOS_BH_SUB_110  | 
410 | TFIDF | Manual | Completo_corrigido | prep. | ? | ?% | 
|  CNAE_SUBCLASSE_110
 DADOS_BH_SUB_110  | 
410 | TFIDF | Aspell | Completo_corrigido | prep. | 3350 | 69,79% |