Mudanças entre as edições de "Informações técnicas a respeito dos dados de Treinamento do SCAEWEB"
(11 revisões intermediárias por um outro usuário não estão sendo mostradas) | |||
Linha 1: | Linha 1: | ||
− | + | [[category:SCAE]] | |
− | + | {{TemplateTreinamento | |
− | + | | NOME_DICIONARIO = DICIONÁRIO_COMPLETO_CORRIGIDO | |
− | + | | Number_of_dictionary_words = 1.212.255 | |
− | + | | Number of dictionary words_literal = um milhão, duzentos e doze mil, duzentos e cinqüenta e cinco | |
− | + | | NOME_TABELA_CNAE = CNAE_110_SUBCLASSE_CORRIGIDO | |
− | + | | NOME_TABELA_DADOS = DADOS_VITORIA_SUB_110_CORRIGIDO | |
− | + | | Number_of_distinct_economic_activities_descriptions = 3281 | |
− | + | | Number_of_economic_activities_with_documents = 764 | |
− | + | | word_vector_table_creation_description = das descrições das subclasses da Tabela CNAE e a partir dos Objetos Sociais da Tabela de Dados. | |
− | + | | eliminated_grammar_class_description = as preposições existentes nestas | |
− | = | + | | PFS_value = 20.000 |
− | + | | NUMERO_TABELAS = 4 | |
− | + | | TTV_LIST = | |
− | + | # TTV_C1S_DESC_TF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TF para o cálculo dos pesos dos termos. | |
− | + | # TTV_DVS1_OBJS_TF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TF para o cálculo dos pesos dos termos. | |
− | + | # TTV_C1S_DESC_TFIDF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TFIDF para o cálculo dos pesos dos termos. | |
− | + | # TTV_DVS1_OBJS_TFIDF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TFIDF para o cálculo dos pesos dos termos | |
− | + | | NOME_TTV_DESCRIPTION = }} | |
− | |||
− | = | ||
− | |||
− | = | ||
− | |||
− | == | ||
− | |||
− | = | ||
− | |||
− | = | ||
− | |||
− | #TTV_C1S_DESC_TF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TF para o cálculo dos pesos dos termos. | ||
− | #TTV_DVS1_OBJS_TF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TF para o cálculo dos pesos dos termos. | ||
− | #TTV_C1S_DESC_TFIDF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TFIDF para o cálculo dos pesos dos termos. | ||
− | #TTV_DVS1_OBJS_TFIDF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TFIDF para o cálculo dos pesos dos termos |
Edição atual tal como às 16h44min de 14 de setembro de 2012
Índice
Introdução
Esta página visa explicar como foi preparada a base de dados de treinamento dos classificadores automáticos do SCAEWEB. Conforme especificado no terceiro relato do Projeto SCAE, para preparar uma base de treinamento são necessários seguir os seguintes passos exibidos na Figua 1:
- Carregar dicionário previamente preparado
- Carregar Tabela CNAE
- Carregar Tabela de Dados
- Carregar Tabela de Vetores de Código de Palavra
- Criar Lexicon
- Criar Tabelas TTV
- Salvar Tabelas
Dicionário previamente preparado
Na versão atual do SCAEWeb foi utilizado o DICIONÁRIO_COMPLETO_CORRIGIDO. Este dicionário possui ao todo 1.212.255 (um milhão, duzentos e doze mil, duzentos e cinqüenta e cinco) palavras. Ele foi criado, conforme especificado no terceiro relato do Projeto SCAE.
Tabela CNAE
Na versão atual está sendo utilizada a tabela CNAE_110_SUBCLASSE_CORRIGIDO. Esta tabela foi criada, conforme especificado no terceiro relato do Projeto SCAE.
Tabela de Dados
Na versão atual do SCAEWeb foi utilizada a tabela DADOS_VITORIA_SUB_110_CORRIGIDO. Esta tabela é formada a partir da correção ortográfica manual das descrições dos objetos sociais de 3281 empresas. Maiores detalhes a respeito do processo de formação desta tabela pode ser consultado no terceiro relato do Projeto SCAE.
Subconjunto das Subclasses Treinadas
Do total de 3281, foram encontradas 764 subclasses, listadas aqui.
Tabela de Vetores de Código de Palavras
Na versão atual do SCAEWeb os vetores de código de palavras foram criados a partir das descrições das subclasses da Tabela CNAE e a partir dos Objetos Sociais da Tabela de Dados..
Lexicon
Na versão atual o LEXICON foi criado a partir das Tabelas de Vetores de Códigos de Palavras, eliminando as as preposições existentes nestas além de eliminar as palavras cuja freqüência no texto é superior a 20.000.
Tabelas TTV
Na versão atual foram criadas 4 tabelas TTV, a partir do Lexicon, apresentadas a seguir:
- TTV_C1S_DESC_TF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TF para o cálculo dos pesos dos termos.
- TTV_DVS1_OBJS_TF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TF para o cálculo dos pesos dos termos.
- TTV_C1S_DESC_TFIDF - Gerado a partir das descrições das subclasses existentes na Tabela CNAE, utilizando a função TFIDF para o cálculo dos pesos dos termos.
- TTV_DVS1_OBJS_TFIDF - Gerado a partir das descrições das descrições dos objetos sociais existentes na Tabela de Dados, utilizando a função TFIDF para o cálculo dos pesos dos termos