• Sonuç bulunamadı

1.4 DĠĞER DÜZENLEMELER

2.1.6 Özellikli Durumlar

´

Arvore de Decis ˜ao ´e um dos algoritmos mais utilizados em AM devido `a sua simplicidade e bons resultados. Seu funcionamento se baseia na criac¸ ˜ao de ´arvores em formato de grafos onde cada n ´o representa uma tomada de decis ˜ao sobre uma vari ´avel da representac¸ ˜ao do problema, com as folhas da ´arvore indicando a classificac¸ ˜ao de uma dada inst ˆancia. Essa simplicidade estrutural facilita a leitura de um humano ao observar uma ´arvore de decis ˜ao e compreender seu funcionamento, diferentemente de outros modelos de AM cuja interpretac¸ ˜ao ´e mais complexa.

A Figura 34 apresenta um exemplo de ´arvore de decis ˜ao para a pergunta “ ´E um bom dia para jogar t ˆenis?” baseada em duas vari ´aveis (tempo e umidade).

Figura 34: Exemplo de ´Arvore de Decis ˜ao.

O algoritmo de ´arvore de decis ˜ao utilizado neste trabalho foi o C4.5 (QUINLAN, 1993), que baseia a construc¸ ˜ao das ´arvores sobre a noc¸ ˜ao de entropia da teoria da informac¸ ˜ao. Descreveremos agora cada um dos experimentos realizados utilizando esta t ´ecnica. Em todos os experimentos foram utilizadas a t ´ecnica 10-Fold Cross Validation para divis ˜ao do conjunto de dados e validac¸ ˜ao do modelo. Tomaremos

a definic¸ ˜ao de classe A, a classe que representa as inst ˆancias que n ˜ao s ˜ao do tipo causa e efeito. classe B, a classe que representa as inst ˆancias que s ˜ao do tipo causa e efeito.

No Experimento 3 aplicou-se o conjunto de dados completo ao algoritmo C4.5. Foi utilizado

um tipo de filtro para que as inst ˆancias fossem organizadas de forma aleat ´oria. Nesse experimento selecionamos o par ˆametron ˜ao efetua a poda da ´arvore.

Os resultados podem ser verificados a seguir:

• Total de inst ˆancias existentes: 34.978 • Total de inst ˆancias na classe A: 29.786 • Total de inst ˆancias na classe B: 5.192

Para aClasse A:

• Total de inst ˆancias da classe A classificadas corretamente: 28.583 • Total de inst ˆancias da classe A classificadas incorretamente: 1.203 • Precis ˜ao : 88,5 %

• Cobertura : 96,3 % • Medida-F : 92,1 %

Para aClasse B:

• Total de inst ˆancias da classe B classificadas corretamente: 1.477 • Total de inst ˆancias da classe B classificadas incorretamente: 3.715 • Precis ˜ao : 55,1 %

• Cobertura : 26,1 % • Medida-F : 35,3 %

M ´edia entre as classes:

• Total de inst ˆancias classificadas corretamente: 30.060 • Total de inst ˆancias classificadas incorretamente: 4.918 • Precis ˜ao : 83,3 %

• Cobertura : 85,9 % • Medida-F : 83,6 %

———–

NoExperimento 4 foi aplicado o mesmo teste do Experimento 3, com os mesmos filtros e par ˆametros,

por ´em aplicou-se oconjunto de dados com tip words removidas.

95

• Total de inst ˆancias existentes: 14.140 • Total de inst ˆancias na classe A: 8.960 • Total de inst ˆancias na classe B: 5.180

Para aClasse A:

• Total de inst ˆancias da classe A classificadas corretamente: 7.852 • Total de inst ˆancias da classe A classificadas incorretamente: 1.108 • Precis ˜ao : 67,2 %

• Cobertura : 87,6 % • Medida-F : 76,1 %

Para aClasse B:

• Total de inst ˆancias da classe B classificadas corretamente: 1.350 • Total de inst ˆancias da classe B classificadas incorretamente: 3.830 • Precis ˜ao : 54,9 %

• Cobertura : 26,1 % • Medida-F : 35,3 %

M ´edia entre as classes:

• Total de inst ˆancias classificadas corretamente: 9.202 • Total de inst ˆancias classificadas incorretamente: 4.938 • Precis ˜ao : 62,7 %

• Cobertura : 65,1 % • Medida-F : 61,2 %

———–

No Experimento 5 aplicou-se o conjunto de dados completo ao algoritmo C4.5. Foi utilizado

um tipo de filtro para que as inst ˆancias fossem organizadas de forma aleat ´oria. Nesse experimento selecionamos o par ˆametro que permite efetuar podas da ´arvore. Outro par ˆametro analisado foi o fator de confianc¸a= 0,25 , no qual valores mais pr ´oximos de 0 indicam ao algoritmo que devem ocorrer

mais podas, pois os ramos mais extremos da ´arvore n ˜ao trazem confianc¸a).

Os resultados podem ser verificados a seguir:

• Total de inst ˆancias existentes: 34.978 • Total de inst ˆancias na classe A: 29.786 • Total de inst ˆancias na classe B: 5.192

Para aClasse A:

• Total de inst ˆancias da classe A classificadas corretamente: 28.852 • Total de inst ˆancias da classe A classificadas incorretamente: 934 • Precis ˜ao : 88,2 %

• Cobertura : 96,9 % • Medida-F : 92,3 %

Para aClasse B:

• Total de inst ˆancias da classe B classificadas corretamente: 1.315 • Total de inst ˆancias da classe B classificadas incorretamente: 3.877 • Precis ˜ao : 58,5 %

• Cobertura : 25,3 % • Medida-F : 35,3 %

M ´edia entre as classes:

• Total de inst ˆancias classificadas corretamente: 30.167 • Total de inst ˆancias classificadas incorretamente: 4.811 • Precis ˜ao : 83,7 %

• Cobertura : 86,2 % • Medida-F : 83,8 %

———–

NoExperimento 6 foi aplicado o mesmo teste do Experimento 5, com os mesmos filtros e par ˆametros,

por ´em aplicou-se oconjunto de dados com tip words removidas.

Os resultados podem ser verificados a seguir:

• Total de inst ˆancias existentes: 14.140 • Total de inst ˆancias na classe A: 8.960 • Total de inst ˆancias na classe B: 5.180

Para aClasse A:

• Total de inst ˆancias da classe A classificadas corretamente: 8.069 • Total de inst ˆancias da classe A classificadas incorretamente: 891 • Precis ˜ao : 67,2 %

97

• Medida-F : 77,1 %

Para aClasse B:

• Total de inst ˆancias da classe B classificadas corretamente: 1.243 • Total de inst ˆancias da classe B classificadas incorretamente: 3.937 • Precis ˜ao : 58,2 %

• Cobertura : 23,9 % • Medida-F : 34,1 %

M ´edia entre as classes:

• Total de inst ˆancias classificadas corretamente: 9.312 • Total de inst ˆancias classificadas incorretamente: 4.828 • Precis ˜ao : 63,9 %

• Cobertura : 65,9 % • Medida-F : 61,2 %

———–

No Experimento 7 aplicou-se o conjunto de dados completo ao algoritmo C4.5. Foi utilizado

um tipo de filtro para que as inst ˆancias fossem organizadas de forma aleat ´oria. Nesse experimento selecionamos o par ˆametro quepermite efetuar podas da ´arvore e fator de confianc¸a com valores

1.00, 10.00 e 100.00.

Os resultados podem ser verificados a seguir:

• Total de inst ˆancias existentes: 34.978 • Total de inst ˆancias na classe A: 29.786 • Total de inst ˆancias na classe B: 5.192

Para aClasse A:

• Total de inst ˆancias da classe A classificadas corretamente: 28.644 • Total de inst ˆancias da classe A classificadas incorretamente: 1.142 • Precis ˜ao : 88,3 %

• Cobertura : 96,2 % • Medida-F : 92,1 %

Para aClasse B:

• Total de inst ˆancias da classe B classificadas incorretamente: 3.809 • Precis ˜ao : 54,8 %

• Cobertura : 26,6 % • Medida-F : 35,8 %

M ´edia entre as classes:

• Total de inst ˆancias classificadas corretamente: 30.027 • Total de inst ˆancias classificadas incorretamente: 4.951 • Precis ˜ao : 83,3 %

• Cobertura : 85,8 % • Medida-F : 83,7 %

———–

NoExperimento 8 foi aplicado o mesmo teste do Experimento 7, com os mesmos filtros e par ˆametros,

por ´em aplicou-se oconjunto de dados com tip words removidas.

Os resultados podem ser verificados a seguir:

• Total de inst ˆancias existentes: 14.140 • Total de inst ˆancias na classe A: 8.960 • Total de inst ˆancias na classe B: 5.180

Para aClasse A:

• Total de inst ˆancias da classe A classificadas corretamente: 7.851 • Total de inst ˆancias da classe A classificadas incorretamente: 1.109 • Precis ˜ao : 67,2 %

• Cobertura : 87,6 % • Medida-F : 76,1 %

Para aClasse B:

• Total de inst ˆancias da classe B classificadas corretamente: 1.354 • Total de inst ˆancias da classe B classificadas incorretamente: 3.826 • Precis ˜ao : 55,0 %

• Cobertura : 26,1 % • Medida-F : 35,1 %

99

• Total de inst ˆancias classificadas corretamente: 9.205 • Total de inst ˆancias classificadas incorretamente: 4.935 • Precis ˜ao : 62,7 %

• Cobertura : 65,1 % • Medida-F : 61,2 %

Na Sec¸ ˜ao 5.3.5 ser ˜ao abordados os experimentos envolvendo t ´ecnicas de Redes Neurais.