Mudanças entre as edições de "Diário de Bordo do Projeto"

De LCAD
Ir para: navegação, pesquisa
Linha 177: Linha 177:
 
** Estabelecimento de prioridades iniciais;
 
** Estabelecimento de prioridades iniciais;
  
[[Janeiro de 2008]]
+
*[[Janeiro de 2008]]
[[Dezembro de 2007]]
+
*[[Dezembro de 2007]]
 
 
 
 
 
 
== 26 de dezembro de 2007, quarta-feira ==
 
=== Renderson ===
 
* Bancada que fica ao lado do outro laboratório e bancada de manutenção estavam sem energia. Rearmei os disjuntores do corredor e tudo voltou ao normal
 
* Havia apenas 23 maquinas "vivas" no cluster, levantei mais 9 ficando 32 máquinas no total.
 
* Editei o topico [[Replicação de um Nó do Cluster (HDs Identicos)]] para diferenciar do novo topico criado [[Replicação de um Nó do Cluster (HDs Diferentes)]]
 
* Criação do novo topico [[Replicação de um Nó do Cluster (HDs Diferentes)]] em Manutenção > Cluster Enterprise. (andamento)
 
 
 
 
 
== 21 de dezembro de 2007, sexta-feira ==
 
=== Victor ===
 
* Continuação da correção das palavras do dicionário (letras "L" e "M")
 
 
 
=== Rickson ===
 
* Correção das palavras do dicionário da letra G à I.
 
 
 
=== Bruno ===
 
* Testes com a função get_lexicon_info;
 
* Dificuldades no retorno do xml do php para o javascript(em andamento);
 
 
 
=== Felipe ===
 
* Implementação da função get_train_list e get_test_list na USER_INTERFACE.
 
* Implementação da comparação hierárquica no VS_CORE.
 
* Realização de testes com o VSC_CORE no nível de subclasse (80.50%) e seção (92.44%). Treinou-se com a tabela CNAE e com a primeira metade da tabela DADOS_VITORIA_SUB_100 e o teste foi realizado com a segunda metade desta tabela.
 
 
 
=== Fernando ===
 
* Encontrei a LCAD2 desligada, religuei e testei;
 
* Apresentação do LCAD para a escola de segundo grau visitante;
 
* Verificação do ar split, encontra-se com problemas, não gela e está pingando para dentro;
 
* Início da implementação dos TTV no DB_CORE;
 
* Planejamento das atividades para colocar o SCAE em uma única versão e já com a biblioteca de RPCs implementada;
 
* Acompanhei o Felipe na comparação hierárquica do VS_CORE e testes nos níveis de subclasse e seção.
 
 
 
 
 
== 20 de dezembro de 2007, quinta-feira ==
 
=== Felipe ===
 
* Salvando informações do teste no arquivo KNOWN_TESTS_saved.csv, testei linha de comando.
 
* Implementação da função add_test_info_rpc.
 
* Remoção do função die_if_fault em algumas funções do DB_CORE, da biblioteca SHARED e da USER_INTERFACE.
 
* Implementação da função get_training_lit.
 
* Implementação da função get_test_lit.
 
* Realização de teste com conjunto: USER_INTERFACE + DB_CORE + VS_CORE;
 
 
 
=== Renderson ===
 
* Clonagem de mais um HD de 40Gb para as TPOLs.
 
* Recuperacao do HD de 160Gb da LCAD4 (Veja detalhes em [[Histórico de Manutenção das LCADs]])
 
 
 
=== Fernando ===
 
* Implementação da get_encodable_column_list_rpc;
 
* Implementação de funções auxiliares como group_array_in_one_string, e ungroup_string_to_array;
 
* Correção na get_column_by_name que não funcionava para a última coluna;
 
* Implementação da função get_lexicon_info_rpc e funções auxiliares.
 
 
 
=== Bruno ===
 
* Testes com a framework CSS;
 
* Testes com a chamada rpc get_lexicon_info;
 
* Ajuses no código em função dos testes acima;
 
 
 
 
 
== 19 de dezembro de 2007, quarta-feira ==
 
=== Felipe ===
 
* Inclusão de subtype no known_trainings.csv;
 
* Inclusão de subtype no known_tests.csv;
 
* Salvando informações do treinamento no arquivo KNOWN_TRAININGS_saved.csv, testei linha de comando;
 
* Salvando informações do teste no arquivo KNOWN_TESTS_saved.csv, testei linha de comando;
 
* Implementação da função add_training_info_rpc;
 
 
 
=== Renderson ===
 
* Finalizacao do redimencionamento do HD de 40GB para a TPOL19
 
  hda5 - /    - 7GB
 
  hda1 - /boot - 102MB
 
  hda7 - /tmp  - 30GB
 
* Reativacao das TPOLs 11 , 17 e 22 que estavam fora do ar, perfazendo um total de 32 maquinas online no cluster
 
 
 
=== Fernando ===
 
* Inclusão de subtype no known_tables.csv;
 
* Implementação da get_table_list_by_type_rpc capaz de retornar a lista de tabela CNAE, DADOS e LEXICONS; falta implementar lista de TTV;
 
* Salvando informações do lexicon no arquivo KNOWN_LEXICONS_saved.csv, testei linha de comando e interface web;
 
 
 
=== Bruno ===
 
* Teste com a chamada rpc get_table_list_by_type para o db_server;
 
* Correções no código devido ao teste realizado anteriormente;
 
* Testes com uma framework CSS para agregar ao site;
 
 
 
 
 
== 18 de dezembro de 2007, terça-feira ==
 
=== Felipe ===
 
* Realização de testes a fim de debugar o VS_CORE, a USER_INTERFACE e a biblioteca corerpcs.
 
* Alteraçào da save_rpc na biblioteca corerpcs.
 
* Alteraçào da train_rpc na biblioteca corerpcs.
 
* Alteraçào do loop principal da USER_INTERFACE.
 
* Trabalho com o SCAE é retomado.
 
 
 
=== Renderson ===
 
* Verificação do ar split: o disjuntor (30A) que havia desarmado;
 
* Redimencionamento do HD de 40GB para substituir os defeituosos das TPOLs (20 Gb) com o /tmp ocupando todo o restante do disco. (30 gb)
 
 
 
=== Fernando ===
 
* Verificação do ar split: o disjuntor (30A) que havia desarmado;
 
* Edição do tópico [[Ar Condicionado]], acrescentando explicação do quadro de disjuntores;
 
* Verificação de treinamento e teste da revisão 91 do VS, treinei com subclasse e primeira metade dos dados de vitória, testei com a segunda metade e aparentemente funcionou, apesar do resultado de 51,68%;
 
* Incluido subtype no known_tables.csv para facilitar o carregamento e distinção das tabelas quando informando a lista de tabelas;
 
* Implementando get_table_list_by_type_rpc no db_core, ainda não terminado;
 
 
 
=== Bruno ===
 
* Construção das funções para sugestão de nome de tabelas e colunas na interface de criação do lexicon;
 
* Construção de uma fila para as requisições em AJAX;
 
 
 
 
 
== 17 de dezembro de 2007, segunda-feira ==
 
=== Felipe ===
 
 
 
* Criei a biblioteca "corerpcs", a qual será linkada com os CORES classificadores. Esta biblioteca se encontra no diretório shared, mais especificamente no subdiretório lib/.uma
 
* O trabalho com o SCAE é retomado.
 
 
 
=== Renderson ===
 
 
 
* Edicao do topico [[Ar Condicionado]] referente ao problema ocorrido
 
* Reativacao de 32 maquinas do cluster (desligadas devido a falta de energia durante a noite).
 
* Redimensionamento do HD de 40gb para substituir o de 20gb das Tpols para o novo tamanho (20 => 40) area maior para o /tmp
 
 
 
 
 
== 15 de dezembro de 2007, sábado ==
 
=== Felipe ===
 
* Participação no Seminário SCAE.
 
 
 
=== Fernando ===
 
* Participação no Seminário SCAE.
 
 
 
 
 
== 14 de dezembro de 2007, sexta-feira ==
 
=== Felipe ===
 
* Participação no Seminário SCAE.
 
* Ajudei o Fernando a debugar o DB_CORE.
 
* Realização de testes com o WNN_COR_CNAE a fim de medir a taxa de acerto nos níveis: seção, divisão, grupo, classe e subclasse.
 
 
 
=== Bruno ===
 
* Modularização das funções em JavaScript referentes à interface de criação do lexicon;
 
 
 
=== Renderson ===
 
* DD do HD da TOPL19 para o novo HD (40GB)
 
* Intalacao da Impressora Dell Laser Collor 3115 na lcad14
 
* Impressao da agenda do 3º Metting do projeto SCAE
 
* Manutencao na LCAD11 (desligada devido a um provavel pique de energia durante a noite) ajuste no Setup
 
* Reativacao de 32 maquinas do cluster (desligadas devido ao desligamento* do ar condicionado durante a noite) nao foi possivel verificar se foi um problema no ar ou um possivel pique de energia.
 
* Estudo da ferramenta NAGIOS para administração e monitoramento dos servicos de rede no LCAD
 
 
 
=== Fernando ===
 
* Adequação das versões dos cores no note dell para demonstração no Seminário SCAE;
 
* Ajustes finais da apresentação;
 
* Correção no IP do ports.cfg que foi alterado por engano;
 
* Apresentação e participação no Seminário SCAE.
 
 
 
 
 
== 13 de dezembro de 2007, quinta-feira ==
 
=== Felipe ===
 
* Eu e o Alberto alteramos o DB_CORE para que a tabela CNAE_110_SUBCLASSE pudesse ser salva em um outro formato.
 
* Eu e o Alberto programamos na wnn_cnae e no wnn_cor_cnae a fim de adicionar a funcionalidade de comparação em vários níveis da tabela CNAE (seção, divisão, grupo, classe e subclasse).
 
* Gerei um nova versão do código que converte a saída do Boostexter para um arquivo interpretável pelos scripts em matlab.
 
* Eu e a Claudine verificamos a possibilidade de a MAE ter sido prejudicada na métrica Coverage por deficiência do script feito em matlab.
 
* Programação com o WNN_CNAE é retomada.
 
* Conversei com a Claudine sobre os resultados preliminares do Adtree.
 
* Programação com o WNN_CNAE é retomada.
 
* Eu e Panmella fizemos um levantamento dos equipamentos do Projeto.
 
* Ajudei o Patrick a instalar o Matlab na lcad11.
 
* Ajudei o Fernando na função de criação dos vetores de treino e teste (no DB_CORE).
 
* Comecei a trabalhar com o WNN_CNAE para permitir a realização da comparação com seção, divisão, grupo, classe e subclasse.
 
* Executei o algoritmo classificar Adtree mais uma vez com a base de dados CNAE.
 
 
 
=== Renderson ===
 
* Atualização da lista de material para o LCAD - Planilha compartilhada no GoogleDocs
 
* Recuperacao da TPOL19 que estava parada.
 
* Analise para a clonagem dos HDs das antigas TPOLs (20gb) para os novos HDs de reposição (40GB) para redimencionamento da particao hda5 (/tmp)
 
* Maquina que sera enviada para o RIo foi separada e numeros de comodato enviado ao email do Fernando (CPU - 2838, Teclado - 2888, Monitor - 2878)
 
 
 
=== Bruno ===
 
* Adição do AJAX na interface de criação do lexicon (finalizado);
 
 
 
=== Fernando ===
 
* Alterações na interface web para funcionamento com o db_core (criação dos TST, treinamento e teste).
 
* Alterações no db_core para funcionamento da interface web (criação dos TST, treinamento e teste).
 
* Instalação do novo w3c-libwww e xmlrpc no note dell. Insucesso, fez tanta atualização que estragou o KDE. Acredito que tenha marcado o repositório development por engano e isto estragou tudo.
 
* Reinstalação do Fedora 8 no note dell, atualização do mesmo e instalação da nova xmlrpc.
 
* Preparei a apresentação para o Encontro SCAE de sexta.
 
* Tentativa de colocar o SCAE no note dell para demonstração, mas algo estava impedindo a interface de funcionar (saímos do LCAD 23:50).
 
 
 
 
 
== 12 de dezembro de 2007, quarta-feira ==
 
=== Felipe ===
 
* Eu e o Elias conversamos sobre os resultados dos algortimos e discutimos sobre o que poderia ser apresentado no artigo;
 
* Assumi os treinos e testes com com Adtree para as bases do Yahoo e CNAE;
 
* Eu e a Claudine procuramos por possíveis erros nos arquivos de entrada e saída MAE e do Boostexter. Nada anormal foi encontrado;
 
* O trabalho com o SCAE é retomado;
 
* Auxiliei o Lucas na execução do Adtree;
 
* Auxiliei o Patrick na execução do Rank-svm;
 
* Eu e a Claudine conversamos sobre os resultados do Boostexter, os quais foram superiores ao da MAE;
 
* O trabalho com o SCAE é retomado, mais precisamente com o VS_CORE e a USER_INTERFACE;
 
* Auxiliei o Rickson no que diz respesito ao svn, DB_CORE e USER_INTERFACE;
 
* Execução do algoritmo Boostexter a pedido da Claudine;
 
* Manutenção do ar-condicionado;
 
 
 
=== Bruno ===
 
* Adição do AJAX na interface de criação do lexicon (não finalizado);
 
 
 
=== Fernando ===
 
* Implementei a seguinte funcionalidade: quando um arquivo binário não é encontrado, seu csv é carregado e o binário é gerado, o que faz funcionar a interface web 2_2_2.
 
* Criei a funcionalidade de utilização do known_tables.csv (várias alterações no db_core) e corrigi os scripts build_tables para funcionarem com as novas modificações.
 
* Ajudei o Lucas a instalar e linkar a biblioteca gtk+(1.2) para utilização de um programa para escrito do artigo;
 
* Auxiliei o Rickson na execução dos experimentos que a Claudine lhe pediu;
 
 
 
=== Renderson ===
 
* Pesquisa sobre serviços instalados (relevantes) nas maquinas do lcad
 
* Edicao do topico [[Roteiro de Verificação dos Serviços nas Máquinas do LCAD]] no Wiki
 
 
 
== 11 de dezembro de 2007, terça-feira ==
 
=== Fernando ===
 
* Acrescentei a funcionalidade de range ao lexicon e os scripts de treinamento de subclasse+primeira metade dos dados de Vitória e treinamento com o restante. Resultado de 75.69%! Adicionei o resultado no Wiki de resultados.
 
* Reunião com Alberto e Claudine sobre andamento do Projeto.
 
 
 
=== Rickson ===
 
* Executei para o WNN-COR os mesmos experimentos antes feitos para o WNN. Ambos se encontram em [[Resultados de Pesquisa]].
 

Edição das 07h06min de 19 de fevereiro de 2008

18 de Fevereiro de 2008, segunda-feira

Fernando

  • Preparando documento com os passos do "Conjunto mínimo completo" (Continuação);
  • Selecionando artefatos de suporte (Continuação);
  • Estudo do documento sobre UML da RF;
  • Elaboração preliminar do "Passos do Conjunto Mínimo completo", eviando para Alberto para avaliarmos;

Rickson

  • Teste com script para altomatizar experimentos.

Ricardo

  • Edição do Manual do SCAE

Bruno

  • Acerto das horas das máquinas
  • Limpeza do filtro do ar condicionado
  • Tentativa de inserção do código que obtém o score do Aspell
  • Experimentos com VS_CORE para as tabelas 1.1.2 e 1.2.2

15 de Fevereiro de 2008, sexta-feira

Fernando

  • Preparando documento com os passos do "Conjunto mínimo completo";
  • Selecionando artefatos de suporte;
  • Ajuda ao Alberto com a burocracia do Projeto do NPD;
  • Coaching ao Ricardo;

Rickson

  • Teste com script para altomatizar experimentos.

Felipe

  • Reunião com o Alberto;
  • Auxílio ao Victor sobre a implementação do código que calculará as métricas;
  • Auxílio ao Bruno na criação da função replace_char_field (a ser inserida ao DB_CORE);
  • Estudo do Doxygen;
  • Criação do guia de utilização do Doxygen Doxygen;
  • Implementação das funções begin_training (), end_training (), begin_test (), end_test() nos CORES classificadores (todos os CORES). Estas funções são chamadas pela biblioteca shared. Ao começar um treino, o shared chamará a função begin_traiinng e ao término a função end_traininfg. O racioçionio é o mesmo para o procedimento de test.
  • Atualização do repositório. Foram atualizados: SHARED, DB_CORE, WNN_CORE, WNN_COR_CORE, WNN_KCOR_CORE e VS_CORE.

Victor

  • Modificacao para o SCAE da implementacao em C da métrica Ranking Loss, ou seja, foi modicicado a forma de gerar o conjunto complementar do de pertinencia. Anteriormente esse era gerado lendo os arquivos de entrada em um funcao fora do escopo da funcao compute_metrics. Agora, esse e gerado a partir dos conjuntos de pertinencia e predicao dentro da funcao compute_metrics, mas especificamente na funcao compute_r_loss, funcoes que serao reconhecidas pelo SCAE.
  • Teste das metricas usando os arquivos de pertinencia e predicao do SCAE e nao os de teste usados anteriormente.
  • Comentarios dos codigos referentes as metricas concluidas.

Renderson

  • Verificacao do Status do LCAD - Tudo OK
  • Diagnostico do problema de leitura no DVDRW externo
  • Remocao do DVDRW da LCAD3 para utilizar no modulo USB Externo
  • Email para a Panmella providenciar a troca das pecas defeituosas
  • Instalacao do Fedora 8 na maquina Quad-Core devido a problemas com senhas de usuarios da ultima instalacao (14.02.08)
  • Inicio da configuracao do NIS-NFS e instalacao da LAM-MPI

Bruno

  • Implementação das funções para testar as bases corrigidas pelo Aspell;
  • Testes com as bases corrigidas pelo Aspell;
  • Explicação do sistema SCAE para o Ricardo;

Ricardo

  • Estudando o manual do SCAE;
  • Discutindo/entendendo o Sistema com Bruno e Fernando
  • Leitura dos relatórios do Projeto;

14 de Fevereiro de 2008, quinta-feira

Felipe

  • Alteração da função de comparação utilizada pelo qsort no módulo statistics.c do shared;
  • Auxílio ao Ramon sobre a compilação do shared e do VS_CORE;
  • Conversa com o Fernando explicando o funcionamento das funções de filtro presentes no DB_CORE;
  • Criação da função add_table_to_known_tables ao DB_CORE.

Rickson

  • Teste com script para altomatizar experimentos.

Renderson

  • Verificacao do status do LCAD
  • Nova instalacao do Fedora 8 na maquina admin do minicluster (quad-core)

Bruno

  • Explicação ao Ricardo sobre os serviços da lcad2;
  • Implementação da técnica de estatística no corretor ortográfico;
  • Teste com a técnica de estatística;

Fernando

  • Revisão junto com o Ricardo do Manual do SCAE e explicação do mesmo, esclarecimento de dúvidas;
  • Instalação da MAE no /opt de todas as máquinas DELL;
  • Investigação dos problemas de compilação com g++ e gcc, juntamente com o Felipe;
  • Iniciando a seleção de artefatos do QoSRF;

Ricardo

  • Leitura dos relatórios do Projeto;
  • Estudando o manual do SCAE;

13 de Fevereiro de 2008, quarta-feira

Victor

  • Implementacao em C da métrica Ranking Loss.
  • Organizacao dos comentarios dos codigos referentes as metricas concluidas.

Renderson

  • Testes com isntalacao da biblioteca MPICH no minicluster
  • Estudando o manual da LAM_MPI

Felipe

  • Procura por outros dicionário de sinônimos na internet (nenhum continha mais palavras do que o achado anteriormente);
  • Criação do diretório THESAURUS no DB_CORE (não subi para o svn, pois depende de aprovação);
  • Implementação das funções que carregam o arquivo thesaurus.txt, cujo formato pode ser explicado em Formato;
  • Implementação das funções que criam um dicionário de sinônimos em .csv thesaurus_table.csv no formato:
palavra; código_palavra; palavra_sinônima; código_palavra_sinônima

Rickson

  • Refazendo testes com a base de BH.

Fernando

Ricardo

  • Análise das informações no website do LCAD/SCAE;
  • Estudando o manual do SCAE;

Bruno

  • Testes do corretor ortográfico com o dicionário scae + o dicionário aspell;
  • Procura de como customizar o Aspell para aceitar a correção ortográfica baseado em frequência;
  • Testes do Aspell considerando tipografia;
  • Correção de algumas palavras do dicionário do scae;

12 de Fevereiro de 2008, terça-feira

Felipe

  • Alteração da função que realiza o feedback no VS_CORE;
  • Após a alteração, realizou-se o seguinte experimento:
    • treina com CNAE_110_SUBCLASSE e
    • 1º teste com DADOS_VITORIA => taxa de acerto de 57.79%;
    • 3º teste com DADOS_VITORIA => taxa de acerto de 61.38%;
    • 6º teste com DADOS_VITORIA => taxa de acerto de 66.26%;
    • 9º teste com DADOS_VITORIA => taxa de acerto de 67.30%;
    • 12º teste com DADOS_VITORIA => taxa de acerto de 68.42%;
    • 15º teste com DADOS_VITORIA => taxa de acerto de 68.91%;
    • 18º teste com DADOS_VITORIA => taxa de acerto de 69.03%;
  • Tentativa de utilizar um dicionário de sinônimos a fim de mapear palavras sinônimas para uma mesma palavra (o que diminuiria o tamanho do lexicon);
  • Procura na internet por um dicionário de sinônimos. Um bom dicionário de sinônimos foi encontrado em DICIONARIO DE SINONIMOS.

Fernando

Ricardo

  • Análise das informações no website do LCAD/SCAE;

Rickson

  • Refazendo testes com a base de BH.

11 de Fevereiro de 2008, segunda-feira

Rickson

  • Refazendo testes com a base de BH.

Felipe

  • Realização de novos testes com várias dicionários filtrados (combinação das filtragens possíveis: STOP WORD, STEMMING, ACCENT). A maior taxa de acerto (teste 1.x.1.4) foi de 84.34% com o dicionário filtrado somente com stemming. O resultado foi 0.12% maior do que o obtido com palvra canônica;
  • Criação de uma funçào que realiza o feedback no VS_CORE (não subi para o svn, pois depende de aprovação);
  • A função só seria chamada se a classificação não teve sucesso;
  • Conversa com a Claudine sobre Relevance Feedback;
  • Realização de alguns teste com o VS_CORE utilizando Relevance Feedback;
  • No exemplo face_recog_without_filters, alteri o código de forma que seja possível executar sem interface gráfica;
  • Realização de testes, com o face_recog_without_filters, nas lcads, na Master e na tpol20 a fim de garantir que os testes poderão ser realizados em qualquer máquina (todos rodaram).

Fernando

Ricardo

  • Conversa inicial sobre o SCAE/LCAD com o Fernando;
    • Esclarecimento de dúvidas;
    • Estabelecimento de prioridades iniciais;