Diário de Bordo do Projeto

De LCAD
Revisão de 07h03min de 19 de fevereiro de 2008 por Administrador (discussão | contribs)
Ir para: navegação, pesquisa

Índice

18 de Fevereiro de 2008, segunda-feira

Fernando

  • Preparando documento com os passos do "Conjunto mínimo completo" (Continuação);
  • Selecionando artefatos de suporte (Continuação);
  • Estudo do documento sobre UML da RF;
  • Elaboração preliminar do "Passos do Conjunto Mínimo completo", eviando para Alberto para avaliarmos;

Rickson

  • Teste com script para altomatizar experimentos.

Ricardo

  • Edição do Manual do SCAE

Bruno

  • Acerto das horas das máquinas
  • Limpeza do filtro do ar condicionado
  • Tentativa de inserção do código que obtém o score do Aspell
  • Experimentos com VS_CORE para as tabelas 1.1.2 e 1.2.2

15 de Fevereiro de 2008, sexta-feira

Fernando

  • Preparando documento com os passos do "Conjunto mínimo completo";
  • Selecionando artefatos de suporte;
  • Ajuda ao Alberto com a burocracia do Projeto do NPD;
  • Coaching ao Ricardo;

Rickson

  • Teste com script para altomatizar experimentos.

Felipe

  • Reunião com o Alberto;
  • Auxílio ao Victor sobre a implementação do código que calculará as métricas;
  • Auxílio ao Bruno na criação da função replace_char_field (a ser inserida ao DB_CORE);
  • Estudo do Doxygen;
  • Criação do guia de utilização do Doxygen Doxygen;
  • Implementação das funções begin_training (), end_training (), begin_test (), end_test() nos CORES classificadores (todos os CORES). Estas funções são chamadas pela biblioteca shared. Ao começar um treino, o shared chamará a função begin_traiinng e ao término a função end_traininfg. O racioçionio é o mesmo para o procedimento de test.
  • Atualização do repositório. Foram atualizados: SHARED, DB_CORE, WNN_CORE, WNN_COR_CORE, WNN_KCOR_CORE e VS_CORE.

Victor

  • Modificacao para o SCAE da implementacao em C da métrica Ranking Loss, ou seja, foi modicicado a forma de gerar o conjunto complementar do de pertinencia. Anteriormente esse era gerado lendo os arquivos de entrada em um funcao fora do escopo da funcao compute_metrics. Agora, esse e gerado a partir dos conjuntos de pertinencia e predicao dentro da funcao compute_metrics, mas especificamente na funcao compute_r_loss, funcoes que serao reconhecidas pelo SCAE.
  • Teste das metricas usando os arquivos de pertinencia e predicao do SCAE e nao os de teste usados anteriormente.
  • Comentarios dos codigos referentes as metricas concluidas.

Renderson

  • Verificacao do Status do LCAD - Tudo OK
  • Diagnostico do problema de leitura no DVDRW externo
  • Remocao do DVDRW da LCAD3 para utilizar no modulo USB Externo
  • Email para a Panmella providenciar a troca das pecas defeituosas
  • Instalacao do Fedora 8 na maquina Quad-Core devido a problemas com senhas de usuarios da ultima instalacao (14.02.08)
  • Inicio da configuracao do NIS-NFS e instalacao da LAM-MPI

Bruno

  • Implementação das funções para testar as bases corrigidas pelo Aspell;
  • Testes com as bases corrigidas pelo Aspell;
  • Explicação do sistema SCAE para o Ricardo;

Ricardo

  • Estudando o manual do SCAE;
  • Discutindo/entendendo o Sistema com Bruno e Fernando
  • Leitura dos relatórios do Projeto;

14 de Fevereiro de 2008, quinta-feira

Felipe

  • Alteração da função de comparação utilizada pelo qsort no módulo statistics.c do shared;
  • Auxílio ao Ramon sobre a compilação do shared e do VS_CORE;
  • Conversa com o Fernando explicando o funcionamento das funções de filtro presentes no DB_CORE;
  • Criação da função add_table_to_known_tables ao DB_CORE.

Rickson

  • Teste com script para altomatizar experimentos.

Renderson

  • Verificacao do status do LCAD
  • Nova instalacao do Fedora 8 na maquina admin do minicluster (quad-core)

Bruno

  • Explicação ao Ricardo sobre os serviços da lcad2;
  • Implementação da técnica de estatística no corretor ortográfico;
  • Teste com a técnica de estatística;

Fernando

  • Revisão junto com o Ricardo do Manual do SCAE e explicação do mesmo, esclarecimento de dúvidas;
  • Instalação da MAE no /opt de todas as máquinas DELL;
  • Investigação dos problemas de compilação com g++ e gcc, juntamente com o Felipe;
  • Iniciando a seleção de artefatos do QoSRF;

Ricardo

  • Leitura dos relatórios do Projeto;
  • Estudando o manual do SCAE;

13 de Fevereiro de 2008, quarta-feira

Victor

  • Implementacao em C da métrica Ranking Loss.
  • Organizacao dos comentarios dos codigos referentes as metricas concluidas.

Renderson

  • Testes com isntalacao da biblioteca MPICH no minicluster
  • Estudando o manual da LAM_MPI

Felipe

  • Procura por outros dicionário de sinônimos na internet (nenhum continha mais palavras do que o achado anteriormente);
  • Criação do diretório THESAURUS no DB_CORE (não subi para o svn, pois depende de aprovação);
  • Implementação das funções que carregam o arquivo thesaurus.txt, cujo formato pode ser explicado em Formato;
  • Implementação das funções que criam um dicionário de sinônimos em .csv thesaurus_table.csv no formato:
palavra; código_palavra; palavra_sinônima; código_palavra_sinônima

Rickson

  • Refazendo testes com a base de BH.

Fernando

Ricardo

  • Análise das informações no website do LCAD/SCAE;
  • Estudando o manual do SCAE;

Bruno

  • Testes do corretor ortográfico com o dicionário scae + o dicionário aspell;
  • Procura de como customizar o Aspell para aceitar a correção ortográfica baseado em frequência;
  • Testes do Aspell considerando tipografia;
  • Correção de algumas palavras do dicionário do scae;

12 de Fevereiro de 2008, terça-feira

Felipe

  • Alteração da função que realiza o feedback no VS_CORE;
  • Após a alteração, realizou-se o seguinte experimento:
    • treina com CNAE_110_SUBCLASSE e
    • 1º teste com DADOS_VITORIA => taxa de acerto de 57.79%;
    • 3º teste com DADOS_VITORIA => taxa de acerto de 61.38%;
    • 6º teste com DADOS_VITORIA => taxa de acerto de 66.26%;
    • 9º teste com DADOS_VITORIA => taxa de acerto de 67.30%;
    • 12º teste com DADOS_VITORIA => taxa de acerto de 68.42%;
    • 15º teste com DADOS_VITORIA => taxa de acerto de 68.91%;
    • 18º teste com DADOS_VITORIA => taxa de acerto de 69.03%;
  • Tentativa de utilizar um dicionário de sinônimos a fim de mapear palavras sinônimas para uma mesma palavra (o que diminuiria o tamanho do lexicon);
  • Procura na internet por um dicionário de sinônimos. Um bom dicionário de sinônimos foi encontrado em DICIONARIO DE SINONIMOS.

Fernando

Ricardo

  • Análise das informações no website do LCAD/SCAE;

Rickson

  • Refazendo testes com a base de BH.

11 de Fevereiro de 2008, segunda-feira

Rickson

  • Refazendo testes com a base de BH.

Felipe

  • Realização de novos testes com várias dicionários filtrados (combinação das filtragens possíveis: STOP WORD, STEMMING, ACCENT). A maior taxa de acerto (teste 1.x.1.4) foi de 84.34% com o dicionário filtrado somente com stemming. O resultado foi 0.12% maior do que o obtido com palvra canônica;
  • Criação de uma funçào que realiza o feedback no VS_CORE (não subi para o svn, pois depende de aprovação);
  • A função só seria chamada se a classificação não teve sucesso;
  • Conversa com a Claudine sobre Relevance Feedback;
  • Realização de alguns teste com o VS_CORE utilizando Relevance Feedback;
  • No exemplo face_recog_without_filters, alteri o código de forma que seja possível executar sem interface gráfica;
  • Realização de testes, com o face_recog_without_filters, nas lcads, na Master e na tpol20 a fim de garantir que os testes poderão ser realizados em qualquer máquina (todos rodaram).

Fernando

Ricardo

  • Conversa inicial sobre o SCAE/LCAD com o Fernando;
    • Esclarecimento de dúvidas;
    • Estabelecimento de prioridades iniciais;

Janeiro de 2008 Dezembro de 2007


26 de dezembro de 2007, quarta-feira

Renderson


21 de dezembro de 2007, sexta-feira

Victor

  • Continuação da correção das palavras do dicionário (letras "L" e "M")

Rickson

  • Correção das palavras do dicionário da letra G à I.

Bruno

  • Testes com a função get_lexicon_info;
  • Dificuldades no retorno do xml do php para o javascript(em andamento);

Felipe

  • Implementação da função get_train_list e get_test_list na USER_INTERFACE.
  • Implementação da comparação hierárquica no VS_CORE.
  • Realização de testes com o VSC_CORE no nível de subclasse (80.50%) e seção (92.44%). Treinou-se com a tabela CNAE e com a primeira metade da tabela DADOS_VITORIA_SUB_100 e o teste foi realizado com a segunda metade desta tabela.

Fernando

  • Encontrei a LCAD2 desligada, religuei e testei;
  • Apresentação do LCAD para a escola de segundo grau visitante;
  • Verificação do ar split, encontra-se com problemas, não gela e está pingando para dentro;
  • Início da implementação dos TTV no DB_CORE;
  • Planejamento das atividades para colocar o SCAE em uma única versão e já com a biblioteca de RPCs implementada;
  • Acompanhei o Felipe na comparação hierárquica do VS_CORE e testes nos níveis de subclasse e seção.


20 de dezembro de 2007, quinta-feira

Felipe

  • Salvando informações do teste no arquivo KNOWN_TESTS_saved.csv, testei linha de comando.
  • Implementação da função add_test_info_rpc.
  • Remoção do função die_if_fault em algumas funções do DB_CORE, da biblioteca SHARED e da USER_INTERFACE.
  • Implementação da função get_training_lit.
  • Implementação da função get_test_lit.
  • Realização de teste com conjunto: USER_INTERFACE + DB_CORE + VS_CORE;

Renderson

Fernando

  • Implementação da get_encodable_column_list_rpc;
  • Implementação de funções auxiliares como group_array_in_one_string, e ungroup_string_to_array;
  • Correção na get_column_by_name que não funcionava para a última coluna;
  • Implementação da função get_lexicon_info_rpc e funções auxiliares.

Bruno

  • Testes com a framework CSS;
  • Testes com a chamada rpc get_lexicon_info;
  • Ajuses no código em função dos testes acima;


19 de dezembro de 2007, quarta-feira

Felipe

  • Inclusão de subtype no known_trainings.csv;
  • Inclusão de subtype no known_tests.csv;
  • Salvando informações do treinamento no arquivo KNOWN_TRAININGS_saved.csv, testei linha de comando;
  • Salvando informações do teste no arquivo KNOWN_TESTS_saved.csv, testei linha de comando;
  • Implementação da função add_training_info_rpc;

Renderson

  • Finalizacao do redimencionamento do HD de 40GB para a TPOL19
 hda5 - /     - 7GB
 hda1 - /boot - 102MB
 hda7 - /tmp  - 30GB
  • Reativacao das TPOLs 11 , 17 e 22 que estavam fora do ar, perfazendo um total de 32 maquinas online no cluster

Fernando

  • Inclusão de subtype no known_tables.csv;
  • Implementação da get_table_list_by_type_rpc capaz de retornar a lista de tabela CNAE, DADOS e LEXICONS; falta implementar lista de TTV;
  • Salvando informações do lexicon no arquivo KNOWN_LEXICONS_saved.csv, testei linha de comando e interface web;

Bruno

  • Teste com a chamada rpc get_table_list_by_type para o db_server;
  • Correções no código devido ao teste realizado anteriormente;
  • Testes com uma framework CSS para agregar ao site;


18 de dezembro de 2007, terça-feira

Felipe

  • Realização de testes a fim de debugar o VS_CORE, a USER_INTERFACE e a biblioteca corerpcs.
  • Alteraçào da save_rpc na biblioteca corerpcs.
  • Alteraçào da train_rpc na biblioteca corerpcs.
  • Alteraçào do loop principal da USER_INTERFACE.
  • Trabalho com o SCAE é retomado.

Renderson

  • Verificação do ar split: o disjuntor (30A) que havia desarmado;
  • Redimencionamento do HD de 40GB para substituir os defeituosos das TPOLs (20 Gb) com o /tmp ocupando todo o restante do disco. (30 gb)

Fernando

  • Verificação do ar split: o disjuntor (30A) que havia desarmado;
  • Edição do tópico Ar Condicionado, acrescentando explicação do quadro de disjuntores;
  • Verificação de treinamento e teste da revisão 91 do VS, treinei com subclasse e primeira metade dos dados de vitória, testei com a segunda metade e aparentemente funcionou, apesar do resultado de 51,68%;
  • Incluido subtype no known_tables.csv para facilitar o carregamento e distinção das tabelas quando informando a lista de tabelas;
  • Implementando get_table_list_by_type_rpc no db_core, ainda não terminado;

Bruno

  • Construção das funções para sugestão de nome de tabelas e colunas na interface de criação do lexicon;
  • Construção de uma fila para as requisições em AJAX;


17 de dezembro de 2007, segunda-feira

Felipe

  • Criei a biblioteca "corerpcs", a qual será linkada com os CORES classificadores. Esta biblioteca se encontra no diretório shared, mais especificamente no subdiretório lib/.uma
  • O trabalho com o SCAE é retomado.

Renderson

  • Edicao do topico Ar Condicionado referente ao problema ocorrido
  • Reativacao de 32 maquinas do cluster (desligadas devido a falta de energia durante a noite).
  • Redimensionamento do HD de 40gb para substituir o de 20gb das Tpols para o novo tamanho (20 => 40) area maior para o /tmp


15 de dezembro de 2007, sábado

Felipe

  • Participação no Seminário SCAE.

Fernando

  • Participação no Seminário SCAE.


14 de dezembro de 2007, sexta-feira

Felipe

  • Participação no Seminário SCAE.
  • Ajudei o Fernando a debugar o DB_CORE.
  • Realização de testes com o WNN_COR_CNAE a fim de medir a taxa de acerto nos níveis: seção, divisão, grupo, classe e subclasse.

Bruno

  • Modularização das funções em JavaScript referentes à interface de criação do lexicon;

Renderson

  • DD do HD da TOPL19 para o novo HD (40GB)
  • Intalacao da Impressora Dell Laser Collor 3115 na lcad14
  • Impressao da agenda do 3º Metting do projeto SCAE
  • Manutencao na LCAD11 (desligada devido a um provavel pique de energia durante a noite) ajuste no Setup
  • Reativacao de 32 maquinas do cluster (desligadas devido ao desligamento* do ar condicionado durante a noite) nao foi possivel verificar se foi um problema no ar ou um possivel pique de energia.
  • Estudo da ferramenta NAGIOS para administração e monitoramento dos servicos de rede no LCAD

Fernando

  • Adequação das versões dos cores no note dell para demonstração no Seminário SCAE;
  • Ajustes finais da apresentação;
  • Correção no IP do ports.cfg que foi alterado por engano;
  • Apresentação e participação no Seminário SCAE.


13 de dezembro de 2007, quinta-feira

Felipe

  • Eu e o Alberto alteramos o DB_CORE para que a tabela CNAE_110_SUBCLASSE pudesse ser salva em um outro formato.
  • Eu e o Alberto programamos na wnn_cnae e no wnn_cor_cnae a fim de adicionar a funcionalidade de comparação em vários níveis da tabela CNAE (seção, divisão, grupo, classe e subclasse).
  • Gerei um nova versão do código que converte a saída do Boostexter para um arquivo interpretável pelos scripts em matlab.
  • Eu e a Claudine verificamos a possibilidade de a MAE ter sido prejudicada na métrica Coverage por deficiência do script feito em matlab.
  • Programação com o WNN_CNAE é retomada.
  • Conversei com a Claudine sobre os resultados preliminares do Adtree.
  • Programação com o WNN_CNAE é retomada.
  • Eu e Panmella fizemos um levantamento dos equipamentos do Projeto.
  • Ajudei o Patrick a instalar o Matlab na lcad11.
  • Ajudei o Fernando na função de criação dos vetores de treino e teste (no DB_CORE).
  • Comecei a trabalhar com o WNN_CNAE para permitir a realização da comparação com seção, divisão, grupo, classe e subclasse.
  • Executei o algoritmo classificar Adtree mais uma vez com a base de dados CNAE.

Renderson

  • Atualização da lista de material para o LCAD - Planilha compartilhada no GoogleDocs
  • Recuperacao da TPOL19 que estava parada.
  • Analise para a clonagem dos HDs das antigas TPOLs (20gb) para os novos HDs de reposição (40GB) para redimencionamento da particao hda5 (/tmp)
  • Maquina que sera enviada para o RIo foi separada e numeros de comodato enviado ao email do Fernando (CPU - 2838, Teclado - 2888, Monitor - 2878)

Bruno

  • Adição do AJAX na interface de criação do lexicon (finalizado);

Fernando

  • Alterações na interface web para funcionamento com o db_core (criação dos TST, treinamento e teste).
  • Alterações no db_core para funcionamento da interface web (criação dos TST, treinamento e teste).
  • Instalação do novo w3c-libwww e xmlrpc no note dell. Insucesso, fez tanta atualização que estragou o KDE. Acredito que tenha marcado o repositório development por engano e isto estragou tudo.
  • Reinstalação do Fedora 8 no note dell, atualização do mesmo e instalação da nova xmlrpc.
  • Preparei a apresentação para o Encontro SCAE de sexta.
  • Tentativa de colocar o SCAE no note dell para demonstração, mas algo estava impedindo a interface de funcionar (saímos do LCAD 23:50).


12 de dezembro de 2007, quarta-feira

Felipe

  • Eu e o Elias conversamos sobre os resultados dos algortimos e discutimos sobre o que poderia ser apresentado no artigo;
  • Assumi os treinos e testes com com Adtree para as bases do Yahoo e CNAE;
  • Eu e a Claudine procuramos por possíveis erros nos arquivos de entrada e saída MAE e do Boostexter. Nada anormal foi encontrado;
  • O trabalho com o SCAE é retomado;
  • Auxiliei o Lucas na execução do Adtree;
  • Auxiliei o Patrick na execução do Rank-svm;
  • Eu e a Claudine conversamos sobre os resultados do Boostexter, os quais foram superiores ao da MAE;
  • O trabalho com o SCAE é retomado, mais precisamente com o VS_CORE e a USER_INTERFACE;
  • Auxiliei o Rickson no que diz respesito ao svn, DB_CORE e USER_INTERFACE;
  • Execução do algoritmo Boostexter a pedido da Claudine;
  • Manutenção do ar-condicionado;

Bruno

  • Adição do AJAX na interface de criação do lexicon (não finalizado);

Fernando

  • Implementei a seguinte funcionalidade: quando um arquivo binário não é encontrado, seu csv é carregado e o binário é gerado, o que faz funcionar a interface web 2_2_2.
  • Criei a funcionalidade de utilização do known_tables.csv (várias alterações no db_core) e corrigi os scripts build_tables para funcionarem com as novas modificações.
  • Ajudei o Lucas a instalar e linkar a biblioteca gtk+(1.2) para utilização de um programa para escrito do artigo;
  • Auxiliei o Rickson na execução dos experimentos que a Claudine lhe pediu;

Renderson

11 de dezembro de 2007, terça-feira

Fernando

  • Acrescentei a funcionalidade de range ao lexicon e os scripts de treinamento de subclasse+primeira metade dos dados de Vitória e treinamento com o restante. Resultado de 75.69%! Adicionei o resultado no Wiki de resultados.
  • Reunião com Alberto e Claudine sobre andamento do Projeto.

Rickson

  • Executei para o WNN-COR os mesmos experimentos antes feitos para o WNN. Ambos se encontram em Resultados de Pesquisa.