Vol. 7 Núm. 13 (2018)
Articles

Característica de selección en campos de escala grande utilizando clústeres y meta-algoritmos

Fardin Akhlaghian Tab
Faculty of Communication and Modern Languages Universiti Putra Malaysia (UPM)
Biografía del autor/a

English Language Department, Faculty of Communication and Modern Languages
Universiti Putra Malaysia (UPM)

Shabnam Amiri
Faculty of Communication and Modern Languages Universiti Putra Malaysia (UPM)
Biografía del autor/a

English Language Department, Faculty of Communication and Modern Languages
Universiti Putra Malaysia (UPM)

Publicado 2018-04-30

Palabras clave

  • Selección de funciones, clustering y meta-algoritmos.

Cómo citar

Tab, F. A., & Amiri, S. (2018). Característica de selección en campos de escala grande utilizando clústeres y meta-algoritmos. Amazonia Investiga, 7(13), 17–30. Recuperado a partir de https://www.amazoniainvestiga.info/index.php/amazonia/article/view/490

Resumen

La selección de las características de entrada apropiadas en el aumento de la eficiencia de los algoritmos de minería de datos tiene un efecto directo y significativo. Más precisamente, esta extracción de conocimiento de los datos de problemas se ve facilitada por tres factores: la reducción de volúmenes de datos, la eliminación de características duplicadas y la eliminación de características no relacionadas. Dada esta necesidad, se ha llevado a cabo una extensa investigación en los últimos años con una variedad de tendencias (estadística, algorítmica y de aprendizaje) en este sentido. Mientras tanto, hiper-algoritmos tales como algoritmos genéticos han sido considerados por muchos investigadores. En esta investigación, hemos intentado lograr una mayor eficiencia combinando clustering y algoritmos genéticos y reduciendo el tiempo de computación.
En este sentido, se presenta una nueva representación del algoritmo genético correspondiente a este problema y sus operadores se definen de manera apropiada. Además, para un uso eficiente de la agrupación en este estudio, fue necesario proporcionar un algoritmo relativamente nuevo para la agrupación rápida. Para validar los métodos propuestos y determinar su eficacia en la resolución de problemas reales, se han llevado a cabo varios experimentos con datos estándar. En el siguiente paso, al analizar los métodos propuestos, comparamos los resultados de los experimentos con varios algoritmos informados en artículos válidos y nuevos. Estas comparaciones han mostrado mejoras en la eficiencia de los métodos propuestos en términos de la precisión de la categorización y la reducción de características en comparación con los métodos de la competencia. Según el análisis, esta mejora se debió al efecto positivo de la agrupación en una búsqueda más rápida del espacio problemático mediante el algoritmo genético y la visualización adaptada.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Alexandridis, A., Patrinos, P., Sarimveis, H., & Tsekouras, G, (2005), A two-stage evolutionary algorithm for variable selection in the development of RBF neural network models. Chemometrics and Intelligent Laboratory Systems, 75(2), 149-162. doi: http://dx.doi.org/10.1016/j.chemolab.2004.06.004

Bekkerman, R., El-Yaniv, R., Tishby, N., & Winter, Y. (2003). Distributional word clusters vs. words for text categorization. J. Mach. Learn. Res., 3, 1183-1208 .

Blum, A. L., & Langley, P, (1997), Selection of relevant features and examples in machine learning. Artif. Intell., 97(1-2), 245-271. doi: 10.1016/s0004-3702(97)00063-5

Chuang, L.-Y., Chang, H.-W., Tu, C.-J., & Yang, C.-H, (2008), Improved binary PSO for feature selection using gene expression data. Comput. Biol. Chem., 32(1), 29-38. doi: 10.1016/j.compbiolchem.2007.09.005

Dhillon, I. S., Mallela, S., & Kumar, R. (2003). A divisive information theoretic feature clustering algorithm for text classification. J. Mach. Learn. Res., 3, 1265-1287 .

Guyon, I., Andr, #233, & Elisseeff, (2003), An introduction to variable and feature selection. J. Mach. Learn. Res., 3, 1182-157 .

Guyon, I., Weston, J., Barnhill, S., & Vapnik, V, (2002), Gene Selection for Cancer Classification using Support Vector Machines. Mach. Learn., 46(1-3), 389-422. doi: 10.1023/a:1012487302797

Kohavi, R., & John, G. H. (1997). Wrappers for feature subset selection. Artificial Intelligence, 97(1–2), 273-324 . doi: http://dx.doi.org/10.1016/S0004-3702(97)00043-X

Torkkola, K, (2003), Feature extraction by non parametric mutual information maximization. J. Mach. Learn. Res., 3, 1415-1438 .