• Sonuç bulunamadı

BÖLGESEL POLİTİKALAR, BÖLGE PLANLAMASI VE

O pr´oximo conjunto de experimentos aborda o processo de limpeza automatizada de dados, ou seja, n˜ao houve intera¸c˜ao do usu´ario tanto na etapa de an´alise quanto de transforma¸c˜ao dos dados.

Como pode ser observado pelos resultados exibidos na Tabela 4.6, com taxa de se- melhan¸ca em 90%, 34 inconsistˆencias foram detectadas com a aplica¸c˜ao do algoritmo Q-Gram, correspondendo `a 20% do total de inconsistˆencias e duplicatas presentes na base de dados. Ao serem adicionadas t´ecnicas de refinamento, a quantidade de inconsistˆencias apresentadas aumenta significativamente. ´e interessante notar que, da mesma maneira com o processo manual, com a utiliza¸c˜ao de sinˆonimos no processo de limpeza automati- zada, a efic´acia aumenta 58%, e 54% do total das inconsistˆencias presentes s˜ao detectadas. Com o Ambiente Data Cleaning treinado, os percentuais subiram para 69% e 74%.

4.4 Experimentos Comparativos 83

Q-Gram, q=3, 90% Inconsistˆencias Falso + Efic´acia Efic´acia Positivo Algoritmo Ad-hoc 34 0 0% 20% Caracteres Especiais 39 0 13% 23% Fon´etica 39 0 13% 23% Stopwords 55 0 38% 33% Sinˆonimos 92 1 58% 54% Treinamento 124 0 69% 74%

Tabela 4.6: Resultados obtidos com a limpeza automatizada utilizando o algoritmo Q- Grams, com q=3 e semelhan¸ca 90%

Com semelhan¸ca de 90%, praticamente n˜ao s˜ao detectados falsos-positivos, por´em nem todas inconsistˆencias presentes na base de dados s˜ao encontradas pela ferramenta.

J´a com fator de semelhan¸ca de 80%, como mostrado na Tabela 4.7, 51 inconsistˆencias foram detectadas com a aplica¸c˜ao do algoritmo Q-Gram, por´em 5 delas falsos-positivos. A diferen¸ca, ou seja, 46 casos correspondem `a 28% do total de inconsistˆencias e duplicatas presentes na base de dados. Ao serem adicionadas t´ecnicas de refinamento, a quantidade de inconsistˆencias apresentadas aumenta significativamente, representando um total de 133 casos detectados e a quantidade de falsos-positivos diminui. Com a utiliza¸c˜ao de sinˆo- nimos no processo de limpeza, a efic´acia aumenta 47%, e 60% do total das inconsistˆencias presentes s˜ao detectadas. Com o Ambiente Data Cleaning treinado, a efic´acia atinge 80%.

Q-Gram, q=3, 80% Inconsistˆencias Falso + Efic´acia Efic´acia Positivo Algoritmo Ad-hoc 51 5 0% 28% Caracteres Especiais 55 4 7% 31% Fon´etica 55 4 7% 31% Stopwords 70 3 27% 40% Sinˆonimos 104 3 47% 60% Treinamento 133 0 59% 80%

Tabela 4.7: Resultados obtidos com a limpeza automatizada utilizando o algoritmo Q- Grams, com q=3 e semelhan¸ca 80%

Ressalta-se tamb´em que, com a ferramenta treinada, n˜ao foram apresentados falsos positivos.

4.4 Experimentos Comparativos 84

Com fator de semelhan¸ca de 75%, como exibido na Tabela 4.8, 61 inconsistˆencias fo- ram detectadas com a aplica¸c˜ao do algoritmo Q-Gram, por´em 9 delas falsos-positivos. A diferen¸ca, ou seja, 52 casos correspondem `a 31% do total de inconsistˆencias e duplicatas presentes na base de dados. Ao serem adicionadas t´ecnicas de refinamento, a quantidade de inconsistˆencias apresentadas aumenta ainda mais, representando um total de 136 casos detectados e a quantidade de falsos-positivos tamb´em diminui. Com a utiliza¸c˜ao de sinˆo- nimos no processo de limpeza, a efic´acia aumenta 42%, e 62% do total das inconsistˆencias presentes s˜ao detectadas. Com o Ambiente Data Cleaning treinado, a efic´acia atinge 81%.

Q-Gram, q=3, 75% Inconsistˆencias Falso + Efic´acia Efic´acia Positivo Algoritmo Ad-hoc 61 9 0% 31% Caracteres Especiais 64 9 5% 33% Fon´etica 64 9 5% 33% Stopwords 77 8 21% 41% Sinˆonimos 111 7 42% 62% Treinamento 136 0 53% 81%

Tabela 4.8: Resultados obtidos com a limpeza automatizada utilizando o algoritmo Q- Grams, com q=3 e semelhan¸ca 75%

Assim como o experimento com fator de semelhan¸ca 80%, com a ferramenta treinada, n˜ao foram apresentados falsos positivos.

Com percentual de semelhan¸ca de 70%, como ilustrado na Tabela 4.9, 66 inconsis- tˆencias foram detectadas com a aplica¸c˜ao do algoritmo Q-Gram, por´em 9 delas falsos- positivos. A diferen¸ca, ou seja, 57 casos correspondem `a 34% do total de inconsistˆencias e duplicatas presentes na base de dados. Ao serem adicionadas t´ecnicas de refinamento, a quantidade de inconsistˆencias apresentadas se eleva, representando um total de 136 casos detectados e a quantidade de falsos-positivos tamb´em diminui. Com a utiliza¸c˜ao de sinˆo- nimos no processo de limpeza, a efic´acia aumenta 39%, e 60% do total das inconsistˆencias presentes s˜ao detectadas. Com o Ambiente Data Cleaning treinado, a efic´acia atinge 81%.

4.4 Experimentos Comparativos 85

Q-Gram, q=3, 70% Inconsistˆencias Falso + Efic´acia Efic´acia Positivo Algoritmo Ad-hoc 66 9 0% 34% Caracteres Especiais 68 10 3% 35% Fon´etica 68 10 3% 35% Stopwords 77 9 14% 41% Sinˆonimos 111 10 39% 60% Treinamento 136 0 50% 81%

Tabela 4.9: Resultados obtidos com a limpeza automatizada utilizando o algoritmo Q- Grams, com q=3 e semelhan¸ca 70%

Assim como os experimentos com fatores de semelhan¸ca 90%, 80% e 75%, com a ferramenta treinada, n˜ao foram apresentados falsos positivos.

Por fim, com percentual de semelhan¸ca de 65%, verificado na Tabela 4.10, 79 in- consistˆencias foram detectadas com a aplica¸c˜ao do algoritmo Q-Gram, por´em 16 delas falsos-positivos. A diferen¸ca, ou seja, 63 casos correspondem `a 38% do total de incon- sistˆencias e duplicatas presentes na base de dados. Ao serem adicionadas t´ecnicas de refinamento, a quantidade de inconsistˆencias apresentadas se eleva, representando um to- tal de 147 casos detectados, mas a quantidade de falsos-positivos acaba aumentando at´e que a ferramenta estivesse treinada. Com a utiliza¸c˜ao de sinˆonimos no processo de lim- peza, a efic´acia aumenta 33%, e 62% do total das inconsistˆencias presentes s˜ao detectadas. Com o Ambiente Data Cleaning treinado, a efic´acia atinge 88%.

Q-Gram, q=3, 65% Inconsistˆencias Falso + Efic´acia Efic´acia Positivo Algoritmo Ad-hoc 79 16 0% 38% Caracteres Especiais 80 14 1% 40% Fon´etica 80 14 1% 40% Stopwords 87 14 9% 44% Sinˆonimos 119 15 33% 62% Treinamento 147 0 46% 88%

Tabela 4.10: Resultados obtidos com a limpeza automatizada utilizando o algoritmo Q- Grams, com q=3 e semelhan¸ca 65%

4.4 Experimentos Comparativos 86

rio na an´alise dos dados, destacam-se o alto grau de efic´acia que o Ambiente Data Clea- ning desenvolvido apresenta, cobrindo aproximadamente 90% do total de inconsistˆencias da base de dados, e o tratamento adequado de falsos-positivos, pois nenhuma limpeza foi realizada incorretamente, com o Ambiente Data Cleaning treinado.

Benzer Belgeler