• Sonuç bulunamadı

Çankırı’da Duygu Gazetesinde İktisadi, Kültürel, Dini ve Mill

1. ERKEN-CUMHURİYET DÖNEMİNDE ÇANKIRI BASINI VE

1.2. ÇANKIRI’DA DUYGU GAZETESİ

1.2.6. Çankırı’da Duygu Gazetesinde İktisadi, Kültürel, Dini ve Mill

Inicialmente o sistema foi projetado para ser executado de forma convencional, ou seja, utilizando apenas um computador do tipo PC (Personal Computer).

Durante o estágio realizado na Universidade da Flórida foi disponibilizado, para a otimização do sistema MinAG, o ambiente de paralelismo. Esse ambiente permitiu que o sistema fosse executado em 400 computadores da Universidade da Flórida em paralelo, ou seja, ao mesmo tempo. Esse tipo de execução melhorou em muito o desempenho e aplicação do sistema MinAG. A mineração dos dados referentes aos casos de

uso apresentados nessa tese foi executada em 84 horas em ambiente paralelo, tendo sido realizadas um total de 10880 minerações, ou seja, o sistema foi executado 10880 vezes. Estima-se que, para realizar essa quantidade de minerações, considerando-se um tempo médio de 7 minutos por execução e usando-se somente um computador, o tempo de processamento seria em torno de 1450 horas, o equivalente a 60 dias ininterruptos. Portanto, por meio do sistema de paralelismo é possível realizar em um tempo expressivamente menor várias execuções do sistema com diferentes bases de dados, ou com diferentes tabelas de uma mesma base de dados, e ainda com diferentes combinações de parâmetros. Isso é importante por três principais motivos:

• Existe dificuldade em se determinar os parâmetros ideais para o Algoritmo Genético,

os quais dependem da base de dados em uso. Por meio das execuções do sistema é possível identificar os parâmetros que contribuíram para os melhores resultados, os quais podem então ser usados como referencial em outras execuções futuras.

• Visto que o Algoritmo Genético insere-se no contexto de aprendizado de máquina,

torna-se necessário que sejam realizadas inúmeras iterações durante a execução do AG para que o aprendizado sobre os dados ocorra. Essa quantidade de iterações requer tempo de execução. Podendo-se realizar o processamento da mineração de dados em paralelo, pode-se testar então o comportamento do AG com diferente número de iterações.

• Para se extrair mais conhecimento implícito em uma base de dados, diferentes

combinações dos atributos devem ser consideradas, ou seja, a cada execução pode-se considerar um grupo específico dentre todos os atributos contidos na base a ser minerada. Da mesma forma, pode-se classificar os dados tendo-se a cada tempo um atributo meta diferente. Isso requer um grande número de execuções do sistema de mineração para atender às diferentes combinações possíveis, o que torna-se viável quando a adoção do paralelismo é possível.

Para a execução do sistema usando paralelismo foram necessárias algumas adaptações no sistema MinAG de forma que o mesmo pudesse ser executado sem a intervenção do usuário. Para isso foi criado um arquivo de parâmetros, onde devem ser informados os dados que seriam fornecidos ao sistema em tempo de execução. Assim, na execução em paralelo o software de gerenciamento do paralelismo inicia a execução do sistema MinAG, direcionando sua execução para 400 diferentes computadores com um arquivo de parâmetros específico associado a cada execução. Dessa forma, garante-se que em cada máquina estará sendo executado o mesmo sistema, porém com parâmetros diferentes, gerando conseqüentemente resultados diferentes.

O arquivo de parâmetro tem o formato TXT, pode ser gerado individualmente, ou por meio do software de gerenciamento de paralelismo, disponível na Universidade da Flórida, o qual gera a partir de um exemplo e de critérios estabelecidos, vários arquivos de parâmetros com composições diferentes para serem utilizados durante a mineração em paralelo.

Cada linha do arquivo de parâmetros do MinAG corresponde a um parâmetro. A composição do arquivo é a seguinte:

Linha1: nome do arquivo no formato CSV que se deseja abrir (nesse caso o arquivo CSV deve estar no mesmo diretório do MinAG.exe).

Linha2: sim ou nao (existe a coluna ID?).

Linha 3: número da coluna ID (identificador do registro).

Linha 4: número da coluna contendo o atributo meta, atributo objetivo.

Linha 5: nome do arquivo CSV a ser gerado quando não existir a coluna ID ou quando as colunas ID e meta não estiverem, respectivamente, nas posições 0 e 1.

Linha 6: semente para o gerador de números (maior que 0,0 e menor que 1,0).

Linha 7: sim ou nao (deseja dividir o arquivo de dados em uma base de treinamento e uma de teste?).

Linha 8: proporção para divisão da base de dados de treinamento.

Linha 9: nome do arquivo de treinamento: se o arquivo de treinamento já existe, sobrescrever. Linha 10: proporção para divisão da base de dados de teste.

Linha 12: x (valor inicial do intervalo meta). Linha 13: y (valor final do intervalo meta). Linha 14: número de indivíduos na população. Linha 15: número de gerações.

Linha 16: valor de fitness para o indivíduo passar de uma geração para outra. Linha 17: probabilidade de cruzamento (entre 0 e 1).

Linha 18: probabilidade de mutação (entre 0 e 1). Linha 19: tamanho do torneio para seleção.

Linha 20: porcentagem de genes mutados do indivíduo. Linha 21: sim ou nao (deseja mutar o peso?).

Linha 22: limite de 0 a 1 do peso. Linha 23: probabilidade do peso.

Linha 24: sim ou nao (deseja mutar o operador?). Linha 25: probabilidade de mutar o operador. Linha 26: probabilidade de <> no operador. Linha 27: probabilidade de = no operador.

Linha 28: probabilidade de sair intervalos nos >= e <. Linha 29: sim ou nao (deseja mutar o valor?).

Linha 30: probabilidade de mutar o valor. Linha 31: número de subclasses para a roleta.

Linha 32: y1;prop1;x2;y2;prop2;x3;prop3 (x e y são os intervalos para a roleta e prop são as proporções.

Linha 33: nome do arquivo de resultados (result.mga). Linha 34: sim ou nao (testar).

Linha 35: nome do arquivo de teste (caso não houve a divisão no próprio programa). Linha 36: sim ou nao (gerar todas as regras de produção).

Linha 37: sim ou nao (gravar todas as regras de produção geradas). Linha 38: sim ou nao (gerar módulo de avaliação).

Observando-se a composição do arquivo de parâmetros percebe-se que existem inúmeras diferentes combinações possíveis dos parâmetros, sendo que a variação de seus valores depende do objetivo da mineração e das características da base de dados sendo considerada.

Com as adequações feitas a versão atual do sistema MinAG pode ser executada tanto no modo convencional (usando apenas um computador) ou em paralelo (grid).