Mudanças entre as edições de "Predefinição:TemplateTreinamento"
(New page: ”This page is authorised text") |
|||
(8 revisões intermediárias pelo mesmo usuário não estão sendo mostradas) | |||
Linha 1: | Linha 1: | ||
− | + | __TOC__ | |
+ | ==Introdução== | ||
+ | Esta página visa explicar como foi preparada a base de dados de treinamento dos classificadores automáticos do SCAEWEB. Conforme especificado no [[Media:relato3.pdf|terceiro relato do Projeto SCAE]], para preparar uma base de treinamento são necessários seguir os seguintes passos exibidos na Figua 1: | ||
+ | #Carregar dicionário previamente preparado | ||
+ | #Carregar Tabela CNAE | ||
+ | #Carregar Tabela de Dados | ||
+ | #Carregar Tabela de Vetores de Código de Palavra | ||
+ | #Criar Lexicon | ||
+ | #Criar Tabelas TTV | ||
+ | #Salvar Tabelas | ||
+ | [[Imagem:CriacaoTabelasSCAE.jpg|frame|213px|center|Figura 1: Processo de criação de tabelas do SCAE]] | ||
+ | |||
+ | ==Dicionário previamente preparado== | ||
+ | Na versão atual do SCAEWeb foi utilizado o {{{NOME_DICIONARIO}}}. Este dicionário possui ao todo {{{Number_of_dictionary_words}}} ({{{Number of dictionary words_literal}}}) palavras. Ele foi criado, conforme especificado no [[Media:relato3.pdf|terceiro relato do Projeto SCAE]]. | ||
+ | |||
+ | ==Tabela CNAE== | ||
+ | Na versão atual está sendo utilizada a tabela {{{NOME_TABELA_CNAE}}}. Esta tabela foi criada, conforme especificado no [[Media:relato3.pdf|terceiro relato do Projeto SCAE]]. | ||
+ | |||
+ | ==Tabela de Dados== | ||
+ | Na versão atual do SCAEWeb foi utilizada a tabela {{{NOME_TABELA_DADOS}}}. Esta tabela é formada a partir da correção ortográfica manual das descrições dos objetos sociais de {{{Number_of_distinct_economic_activities_descriptions}}} empresas. Maiores detalhes a respeito do processo de formação desta tabela pode ser consultado no [[Media:relato3.pdf|terceiro relato do Projeto SCAE]]. | ||
+ | |||
+ | ===Subconjunto das Subclasses Treinadas=== | ||
+ | Do total de {{{Number_of_distinct_economic_activities_descriptions}}}, foram encontradas {{{Number_of_economic_activities_with_documents}}} subclasses, listadas [[Número de documentos por Subclasses CNAE|aqui]]. | ||
+ | |||
+ | ==Tabela de Vetores de Código de Palavras== | ||
+ | Na versão atual do SCAEWeb os vetores de código de palavras foram criados a partir {{{word_vector_table_creation_description}}}. | ||
+ | |||
+ | ==Lexicon== | ||
+ | Na versão atual o LEXICON foi criado a partir das Tabelas de Vetores de Códigos de Palavras, eliminando as {{{eliminated_grammar_class_description}}} além de eliminar as palavras cuja freqüência no texto é superior a {{{PFS_value}}}. | ||
+ | |||
+ | ==Tabelas TTV== | ||
+ | Na versão atual foram criadas {{{NUMERO_TABELAS}}} tabelas TTV, a partir do Lexicon, apresentadas a seguir: | ||
+ | {{{TTV_LIST}}} |
Edição atual tal como às 14h48min de 19 de março de 2009
Índice
Introdução
Esta página visa explicar como foi preparada a base de dados de treinamento dos classificadores automáticos do SCAEWEB. Conforme especificado no terceiro relato do Projeto SCAE, para preparar uma base de treinamento são necessários seguir os seguintes passos exibidos na Figua 1:
- Carregar dicionário previamente preparado
- Carregar Tabela CNAE
- Carregar Tabela de Dados
- Carregar Tabela de Vetores de Código de Palavra
- Criar Lexicon
- Criar Tabelas TTV
- Salvar Tabelas
Dicionário previamente preparado
Na versão atual do SCAEWeb foi utilizado o {{{NOME_DICIONARIO}}}. Este dicionário possui ao todo {{{Number_of_dictionary_words}}} ({{{Number of dictionary words_literal}}}) palavras. Ele foi criado, conforme especificado no terceiro relato do Projeto SCAE.
Tabela CNAE
Na versão atual está sendo utilizada a tabela {{{NOME_TABELA_CNAE}}}. Esta tabela foi criada, conforme especificado no terceiro relato do Projeto SCAE.
Tabela de Dados
Na versão atual do SCAEWeb foi utilizada a tabela {{{NOME_TABELA_DADOS}}}. Esta tabela é formada a partir da correção ortográfica manual das descrições dos objetos sociais de {{{Number_of_distinct_economic_activities_descriptions}}} empresas. Maiores detalhes a respeito do processo de formação desta tabela pode ser consultado no terceiro relato do Projeto SCAE.
Subconjunto das Subclasses Treinadas
Do total de {{{Number_of_distinct_economic_activities_descriptions}}}, foram encontradas {{{Number_of_economic_activities_with_documents}}} subclasses, listadas aqui.
Tabela de Vetores de Código de Palavras
Na versão atual do SCAEWeb os vetores de código de palavras foram criados a partir {{{word_vector_table_creation_description}}}.
Lexicon
Na versão atual o LEXICON foi criado a partir das Tabelas de Vetores de Códigos de Palavras, eliminando as {{{eliminated_grammar_class_description}}} além de eliminar as palavras cuja freqüência no texto é superior a {{{PFS_value}}}.
Tabelas TTV
Na versão atual foram criadas {{{NUMERO_TABELAS}}} tabelas TTV, a partir do Lexicon, apresentadas a seguir: {{{TTV_LIST}}}