FACULTAD DE INGENIERÍA Y ARQUITECTURA 
ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS 
 
 
TESIS 
DETECCIÓN DE PATRONES DE PERSONAS DESAPARECIDAS 
MEDIANTE TÉCNICAS DE APRENDIZAJE NO SUPERVISADO 
 
 
Presentado por:  Rimachi Costillas, Roy Joseph 
Para optar el Título Profesional de Ingeniero de Sistemas 
Asesor: Ing. Iván Molero Delgado   

DEDICATORIA 
  
  
 A mi madre y a mi hermano, por ser la fuente principal de 
mi motivación que me ayuda a mejorar como persona y 
 
profesional cada día.
 
 
I 
 

AGRADECIMIENTOS 
  
  
 Agradezco a mi familia, por apoyarme y darme su soporte 
en todo mi desarrollo como profesional. 
 
También agradezco a mi asesor Mgt. Ivan Molero Delgado 
 
por apoyarme en todo el proceso investigativo y a resolver 
 las dudas, a la Mgt. Pilar Hidalgo Leon por guiarme y 
motivarme en el campo de la investigación, además de 
 compartir su experiencia en el campo que me ayudo a 
 concretar la investigación. 
I 
 

RESUMEN 
La desaparición de personas es una de las preocupaciones principales tanto a nivel nacional 
como mundial, estás se pueden dar debido a la trata de personas, tráfico de órganos, entre 
otros. Dentro de los grupos de personas desaparecidas existe uno cuyas características alertan 
más a la sociedad, por lo cual requieren una respuesta más rápida y eficiente; a este grupo se 
le denomina personas en situación de vulnerabilidad y está conformado por niños, niñas, 
adolescentes, personas adultas mayores y personas con discapacidad física, mental o 
sensorial. 
El aprendizaje no supervisado por otro lado forma parte del aprendizaje automático que a su 
vez es parte del campo de la Inteligencia Artificial, esta rama busca recolectar o generar 
conocimiento a través de la información albergada en los datos sin la necesidad de 
etiquetarlos. Los algoritmos de aprendizaje no supervisado cotidianamente son parte de 
soluciones tecnológicas que permiten segmentar o descubrir patrones de un conjunto de datos. 
Dichos patrones han servido a múltiples campos para desarrollar estrategias focalizadas por 
grupo, incrementando así la eficacia de los procesos que se encargan de combatir una 
problemática determinada. 
Los datos recolectados de menores desaparecidos contienen múltiples atributos como: edad, 
genero, raza, color de ojos, color de cabello, tipo de nariz, tipo de boca, etc. Entre estos 
campos solo existe una etiqueta cuyo valor puede ser “desaparecido” o “encontrado”, esta 
etiqueta no solventa la aplicación de técnicas de aprendizaje supervisado; debido a esto se 
opto por utilizar técnicas de aprendizaje no supervisado que surgen como una alternativa 
viable para analizar los datos. Además, este tipo de aprendizaje debido a su enfoque que no 
requiere de etiquetas en los datos disminuye el costo de recursos. Por esta razón la 
investigación busca describir o mostrar conocimiento sobre los patrones que puedan ser 
detectados dentro del conjunto de datos haciendo uso de las técnicas de aprendizaje no 
supervisado. 
I 
 
Por consiguiente, para aplicar las técnicas de aprendizaje no supervisado primero fue 
necesario extraer todos los datos albergados en la página web utilizando la técnica de web 
scraping que nos permitió obtener todos los datos sobre el perfil del menor. También, debido 
a que el conjunto de datos recolectado contenía inconsistencias entre sus registros, se 
preprocesaron con técnicas del proceso KDD para obtener la mayor cantidad de registros 
validos para el estudio. 
Finalmente, el análisis de los datos se llevo a cabo variando entre múltiples números de 
clústeres determinados por el método del codo, para así pasarlos al algoritmo k-means y así 
determinar mediante métricas de validación la cantidad adecuada para el conjunto de datos. 
 
 
II 
ABSTRACT 
The disappearance of people is one of the main concerns both nationally and globally, these 
can occur due to human trafficking, organ trafficking, among others. Within the groups of 
disappeared persons there is one whose characteristics alert society more, for which they 
require a faster and more efficient response; This group is called people in vulnerable 
situations and is made up of boys, girls, adolescents, older adults and people with physical, 
mental or sensory disabilities. 
Unsupervised learning on the other hand is part of machine learning which in turn is part of 
the field of Artificial Intelligence, this branch seeks to collect or generate knowledge through 
the information stored in the data without the need to label it. Unsupervised learning 
algorithms daily are part of technological solutions that allow you to segment or discover 
patterns in a data set. These patterns have served multiple fields to develop group strategies, 
thus increasing the effectiveness of the processes that are responsible for combating a specific 
problem. 
The data collected from missing minors contains multiple attributes such as: age, sex, race, 
eye color, hair color, type of nose, type of mouth, etc. Among these fields there is only one 
label whose value can "disappear" or "found". This label does not address the application of 
supervised learning techniques; Due to this, it was decided to use unsupervised learning 
techniques that emerge as a viable alternative to analyze the data. In addition, this type of 
learning due to its approach that does not require labels on the data reduces the cost of 
resources. For this reason, the research seeks to describe or show knowledge about the 
patterns that can be detected within the data set using unsupervised learning techniques. 
Therefore, to apply unsupervised learning techniques, it was first necessary to extract all the 
data stored in the web page using the web scraping technique that allowed us to obtain all the 
data from the child's profile. Furthermore, since the collected data set contained 
inconsistencies between their records, they were preprocessed with KDD processing 
techniques to obtain the largest number of valid records for the study. 
Finally, the data analysis was performed by varying between multiple numbers of clusters 
determined by the elbow method, in order to pass them to the k-means algorithm and thus 
determine the appropriate amount for the data set through validation metrics. 
III 
 
INTRODUCCIÓN 
En estos años donde el uso de la tecnología es constante y tiende a un crecimiento 
exponencial, los datos han demostrado cumplir un rol primordial para mejorar las estrategias 
en cualquier rubro mediante su estudio y análisis. Se puede observar dentro de diferentes 
campos como el análisis de datos adecuado puede mejorar la eficiencia y eficacia de los 
procesos que se llevan a cabo para combatir una problemática. 
Las desapariciones de menores por su parte son reguladas en el Perú bajo la Ley N.º 29685 
cuyo objetivo según el diario oficial el peruano es: “Dictar medidas especiales que permitan la 
búsqueda, localización y protección de niños, niñas, adolescentes, personas adultas mayores y 
personas con discapacidad física, mental o sensorial que se encuentren desaparecidas” (pág. 
442436). Además, “Se considera persona desaparecida a aquella que se encuentra ausente de 
su domicilio habitual, respecto del cual se desconoce su paradero” (pág. 442436).  
En el año 2018 el Ministerio del Interior implemento la campaña “Te estamos buscando”, 
cuya finalidad es distribuir notas de alertas de las personas en situación de riesgo con la 
finalidad de que los perfiles sean redistribuidos haciendo uso de los diferentes medios de 
comunicación. Esta estrategia para combatir las desapariciones de menores se basó en la 
Alerta Amber (America’s Missing: Broadcast Emergency Response) que demostró una gran 
eficiencia a nivel internacional. La página web de esta campaña alberga los datos de miles de 
personas reportadas como desaparecidas y encontradas, dentro de sus datos se puede 
encontrar los atributos de edad, altura, raza, etc. 
El aprendizaje automático es un campo de la Inteligencia Artificial que busca formar 
conocimiento a través del análisis de los datos, dentro de este campo encontramos el 
aprendizaje no supervisado cuyo objetivo es descubrir los patrones o estructuras de un 
conjunto de datos sin la necesidad de un supervisor. A su vez, el análisis de Clustering es una 
de las técnicas de aprendizaje no supervisado más utilizadas que busca formar clústeres de 
acuerdo con la similitud entre los registros de datos. 
Por lo tanto, podemos utilizar las técnicas de aprendizaje no supervisado como herramienta 
para detectar los patrones de menores desaparecidos que existen en el conjunto de datos, 
tomando en cuenta los datos de los perfiles como altura, edad, genero, raza, entre otros. Se 
escogen estos datos porque forman son características de cada persona registrada en la página 
web. 
IV 
ÍNDICE GENERAL 
DEDICATORIA ___________________________________________________________ I 
AGRADECIMIENTOS _____________________________________________________ I 
RESUMEN ________________________________________________________________ I 
ABSTRACT _____________________________________________________________ III 
INTRODUCCIÓN _________________________________________________________ IV 
ÍNDICE GENERAL _______________________________________________________ V 
ÍNDICE DE TABLAS ____________________________________________________ VIII 
ÍNDICE DE FIGURAS _____________________________________________________ X 
CAPÍTULO I. ASPECTOS GENERALES ____________________________________ 1 
I.1. DESCRIPCIÓN DE LA SITUACIÓN ACTUAL _______________________________ 1 
I.2. FORMULACIÓN DEL PROBLEMA ________________________________________ 2 
I.2.1. PROBLEMA GENERAL _______________________________________________________ 2 
I.2.2. PROBLEMAS ESPECÍFICOS ___________________________________________________ 2 
I.3. OBJETIVOS _____________________________________________________________ 2 
I.3.1. OBJETIVO GENERAL ________________________________________________________ 2 
I.3.2. OBJETIVOS ESPECÍFICOS ____________________________________________________ 3 
I.4. HIPÓTESIS ______________________________________________________________ 3 
I.5. VARIABLES _____________________________________________________________ 3 
I.5.1. VARIABLE DEPENDIENTE ___________________________________________________ 3 
I.5.2. INDICADORES DE VARIABLE DEPENDIENTE __________________________________ 4 
I.6. JUSTIFICACIÓN _________________________________________________________ 4 
I.6.1. CONVENIENCIA _____________________________________________________________ 4 
I.6.2. RELEVANCIA SOCIAL _______________________________________________________ 4 
I.6.3. IMPLICACIONES PRÁCTICAS _________________________________________________ 4 
I.6.4. VALOR TEÓRICO ____________________________________________________________ 5 
I.7. METODOLOGÍA _________________________________________________________ 5 
I.7.1. TIPO DE INVESTIGACIÓN ____________________________________________________ 5 
I.7.2. NIVEL DE INVESTIGACIÓN ___________________________________________________ 5 
I.7.3. MÉTODO DE INVESTIGACIÓN ________________________________________________ 6 
I.8. MATRIZ DE CONSISTENCIA _____________________________________________ 7 
V 
 
CAPÍTULO II. MARCO TEÓRICO _________________________________________ 9 
II.1. ASPECTOS TEÓRICOS PERTINENTES __________________________________ 9 
II.1.1. DATA MINING ______________________________________________________________ 9 
II.1.2. APRENDIZAJE AUTOMÁTICO _______________________________________________ 23 
II.2. ANTECEDENTES DE LA INVESTIGACIÓN ______________________________ 33 
II.2.1. ANTECEDENTES INTERNACIONALES ________________________________________ 33 
II.2.2. ANTECEDENTES NACIONALES ______________________________________________ 37 
CAPÍTULO III. METODOLOGÍA _________________________________________ 39 
III.1. TIPO DE INVESTIGACIÓN _____________________________________________ 39 
III.2. DISEÑO DE LA INVESTIGACIÓN _______________________________________ 39 
III.2.1. FASE 1: RECOLECTAR DATOS _______________________________________________ 39 
III.2.2. FASE 2: PRE-PROCESAMIENTO DE DATOS ____________________________________ 40 
III.2.3. FASE 3: ANÁLISIS DE CLUSTERING Y VALIDACIÓN DE RESULTADOS ___________ 41 
III.2.4. FASE 4: INTERPRETACIÓN DE RESULTADOS __________________________________ 42 
III.3. POBLACIÓN Y MUESTRA _____________________________________________ 42 
III.3.1. POBLACIÓN _______________________________________________________________ 42 
III.3.2. MUESTRA _________________________________________________________________ 42 
III.4. INSTRUMENTOS _____________________________________________________ 43 
III.5. RECOLECCIÓN Y ANÁLISIS DE DATOS ________________________________ 43 
III.5.1. TÉCNICAS DE RECOLECCIÓN DE DATOS _____________________________________ 43 
III.5.2. TÉCNICAS DE ANÁLISIS DE DATOS __________________________________________ 49 
CAPÍTULO IV. RESULTADOS____________________________________________ 52 
IV.1. ETAPA 1: RECOLECTAR DATOS _______________________________________ 52 
IV.2. ETAPA 2: PRE-PROCESAMIENTO DE DATOS ___________________________ 52 
IV.2.1. INTEGRACIÓN DE DATOS ___________________________________________________ 52 
IV.2.2. LIMPIEZA DE DATOS _______________________________________________________ 53 
IV.2.3. TRANSFORMACIÓN DE DATOS ______________________________________________ 64 
IV.2.4. REDUCCIÓN DE DATOS _____________________________________________________ 64 
IV.3. ETAPA 3: ANÁLISIS DE CLUSTERING Y VALIDACIÓN DE RESULTADOS _ 65 
IV.4. FASE 4: INTERPRETACIÓN DE RESULTADOS __________________________ 67 
IV.4.1. DISTRIBUCIÓN DE CLÚSTERES ______________________________________________ 67 
CAPÍTULO V. DISCUSIÓN _______________________________________________ 89 
GLOSARIO ______________________________________________________________ 92 
VI 
CONCLUSIONES _________________________________________________________ 94 
RECOMENDACIONES ____________________________________________________ 95 
REFERENCIAS __________________________________________________________ 96 
ANEXOS ________________________________________________________________ 98 
ANEXO A: DESCRIPCIÓN DE DATOS - CLÚSTER 1 _____________________________ 98 
ANEXO B: DESCRIPCIÓN DE DATOS – CLÚSTER 2 ____________________________ 100 
ANEXO C: DESCRIPCIÓN DE DATOS – CLÚSTER 3 ____________________________ 102 
ANEXO D: DESCRIPCIÓN DE DATOS – CLÚSTER 4 ____________________________ 104 
 
VII 
 
ÍNDICE DE TABLAS 
Tabla 1 Matriz de Consistencia. ________________________________________________________________ 7 
Tabla 2 Población de menores desaparecidos y encontrados. _______________________________________ 42 
Tabla 3 Atributos de perfil de menor desaparecido. _______________________________________________ 45 
Tabla 4 Número de datos faltantes por atributo. _________________________________________________ 50 
Tabla 5 Perfiles duplicados por nombre. ________________________________________________________ 53 
Tabla 6 Tipos de dato por atributo del conjunto de datos inicial. _____________________________________ 54 
Tabla 7 Descripción de atributos numéricos (inicial). ______________________________________________ 55 
Tabla 8 Descripción de valores numéricos (sin valores atípicos). _____________________________________ 56 
Tabla 9 Valores del atributo "ojos" (inicial). _____________________________________________________ 57 
Tabla 10 Valores del atributo "ojos" (formateados). _______________________________________________ 57 
Tabla 11 Valores del atributo "cabello" (inicial). __________________________________________________ 58 
Tabla 12 Valores del atributo "cabello” (formateados). ____________________________________________ 58 
Tabla 13 Valores del atributo "boca" (inicial). ____________________________________________________ 59 
Tabla 14 Valores del atributo "boca” (formateados). ______________________________________________ 59 
Tabla 15 Valores del atributo "nariz” (inicial). ____________________________________________________ 60 
Tabla 16 Valores del atributo "nariz” (formateados). ______________________________________________ 60 
Tabla 17 Valores del atributo "raza" (inicial). ____________________________________________________ 61 
Tabla 18 Valores del atributo "raza” (formateados). ______________________________________________ 61 
Tabla 19 Valores del atributo "género” (formateados). ____________________________________________ 62 
Tabla 20 Estadísticas descriptivas de atributos binarios (con valores nulos). ____________________________ 62 
Tabla 21 Estadísticas descriptivas de atributos nominales (con valores nulos). __________________________ 62 
Tabla 22 Estadísticas descriptivas de atributos numéricos (sin valores nulos). __________________________ 63 
Tabla 23 Estadísticas descriptivas de atributos binarios (sin valores nulos). ____________________________ 63 
Tabla 24 Estadísticas descriptivas de atributos nominales (sin valores nulos). __________________________ 64 
Tabla 25 Estadísticas descriptivas del conjunto de datos (después del preprocesamiento). ________________ 64 
Tabla 26 Estadísticas descriptivas del conjunto de datos (redimensionado). ____________________________ 65 
Tabla 27 Resultados de índices de validación. ____________________________________________________ 66 
Tabla 28 Resumen de distribución (Color de ojos x Edad). __________________________________________ 71 
Tabla 29 Resumen de distribución (Color de cabello x Edad). ________________________________________ 74 
Tabla 30 Resumen de distribución (Boca x Edad). _________________________________________________ 77 
Tabla 31 Resumen de distribución (Nariz x Edad). ________________________________________________ 80 
Tabla 32 Resumen de distribución (Raza x Edad). _________________________________________________ 83 
Tabla 33 Resumen de distribución (Género x Edad). _______________________________________________ 86 
Tabla 34 Descripción de atributos numéricos - Clúster 1. ___________________________________________ 98 
Tabla 35 Descripción de atributos nominales - Clúster 1. ___________________________________________ 98 
Tabla 36 Distribución de valores de género - Clúster 1. ____________________________________________ 98 
VIII 
Tabla 37 Distribución de valores de color de ojos - Clúster 1. ________________________________________ 99 
Tabla 38 Distribución de valores de color de cabello - Clúster 1. _____________________________________ 99 
Tabla 39 Distribución de valores de boca - Clúster 1. ______________________________________________ 99 
Tabla 40 Distribución de valores de nariz - Clúster 1. ______________________________________________ 99 
Tabla 41 Distribución de valores de raza - Clúster 1. ______________________________________________ 100 
Tabla 42  Descripción de atributos numéricos - Clúster 2. __________________________________________ 100 
Tabla 43 Descripción de atributos nominales - Clúster 2. __________________________________________ 100 
Tabla 44 Distribución de valores de género - Clúster 2. ___________________________________________ 101 
Tabla 45 Distribución de valores de color de ojos - Clúster 2. _______________________________________ 101 
Tabla 46 Distribución de valores de color de cabello - Clúster 2. ____________________________________ 101 
Tabla 47 Distribución de valores de boca - Clúster 2. _____________________________________________ 101 
Tabla 48 Distribución de valores de nariz - Clúster 2. _____________________________________________ 102 
Tabla 49 Distribución de valores de raza - Clúster 2. ______________________________________________ 102 
Tabla 50 Descripción de atributos numéricos - Clúster 3. __________________________________________ 102 
Tabla 51 Descripción de atributos nominales - Clúster 3. __________________________________________ 102 
Tabla 52 Distribución de valores de género - Clúster 3. ___________________________________________ 103 
Tabla 53 Distribución de valores de color de ojos - Clúster 3. _______________________________________ 103 
Tabla 54 Distribución de valores de color de cabello - Clúster 3. ____________________________________ 103 
Tabla 55 Distribución de valores de boca - Clúster 3. _____________________________________________ 103 
Tabla 56 Distribución de valores de nariz - Clúster 3. _____________________________________________ 104 
Tabla 57 Distribución de valores de raza - Clúster 3. ______________________________________________ 104 
Tabla 58 Descripción de atributos numéricos - Clúster 4. __________________________________________ 104 
Tabla 59 Descripción de atributos nominales - Clúster 4. __________________________________________ 104 
Tabla 60 Distribución de valores de género - Clúster 4. ___________________________________________ 105 
Tabla 61 Distribución de valores de color de ojos - Clúster 4. _______________________________________ 105 
Tabla 62 Distribución de valores de color de cabello - Clúster 4. ____________________________________ 105 
Tabla 63 Distribución de valores de boca - Clúster 4. _____________________________________________ 105 
Tabla 64 Distribución de valores de nariz - Clúster 4. _____________________________________________ 106 
Tabla 65 Distribución de valores de raza - Clúster 4. ______________________________________________ 106 
 
IX 
 
ÍNDICE DE FIGURAS 
Figura 1 Distribución de personas desparecidas en el año 2020. ______________________________________ 1 
Figura 2 La minería de datos como un paso en el proceso de descubrimiento de conocimiento. ____________ 10 
Figura 3 Métodos de Discretización (Binning) para suavizado de datos. _______________________________ 13 
Figura 4 Una gráfica de datos de clientes en 2-D con respecto a las ubicaciones de los clientes en una 
ciudad, que muestra tres grupos de datos. _______________________________________________ 14 
Figura 5 El tamaño de la población y la inversión publicitaria de 100 ciudades diferentes se muestran 
como círculos de color purpura. La línea verde continua indica el primer componente principal y 
la línea discontinua azul indica el segundo componente principal. ____________________________ 21 
Figura 6 Ejemplo de clustering del conjunto de datos iris sin etiquetas de clase. _________________________ 28 
Figura 7 Ejemplo de perfil de menor desaparecido. _______________________________________________ 44 
Figura 8 Función inicial _____________________________________________________________________ 46 
Figura 9 Función Scraper ____________________________________________________________________ 47 
Figura 10 Función obtener perfil ______________________________________________________________ 48 
Figura 11 Función guardar perfil ______________________________________________________________ 49 
Figura 12 Diagrama de dispersión (edad x altura) (inicial). _________________________________________ 55 
Figura 13 Diagrama de dispersión (edad x altura) (sin valores atípicos). _______________________________ 56 
Figura 14 Método de codo aplicado al conjunto de datos de menores desaparecidos. ____________________ 66 
Figura 15 K-means aplicado a los datos de menores desaparecidos (Datos reducidos con PCA). ____________ 67 
Figura 16 Diagrama de dispersión (Componente principal 1 x Componente principal 2). __________________ 68 
Figura 17 Diagrama de cajas (altura x clúster). ___________________________________________________ 69 
Figura 18 Diagrama de cajas (edad x clúster). ___________________________________________________ 70 
Figura 19 Diagrama de cajas (Color de ojos x Edad). ______________________________________________ 72 
Figura 20 Diagrama de barras (Color de ojos x Edad). _____________________________________________ 73 
Figura 21 Diagrama de cajas (Color de cabello x Edad). ____________________________________________ 75 
Figura 22 Diagrama de barras (Color de cabello x Edad). ___________________________________________ 76 
Figura 23 Diagrama de cajas (Boca x Edad). _____________________________________________________ 78 
Figura 24 Diagrama de barras (Boca x Edad). ____________________________________________________ 79 
Figura 25 Diagrama de cajas (Nariz x Edad). _____________________________________________________ 81 
Figura 26 Diagrama de barras (Nariz x Edad). ___________________________________________________ 82 
Figura 27 Diagrama de cajas (Raza x Edad). _____________________________________________________ 84 
Figura 28 Diagrama de barras (Raza x Edad). ____________________________________________________ 85 
Figura 29 Diagrama de cajas (Género x Edad). ___________________________________________________ 87 
Figura 30 Diagrama de barras (Género x Edad). __________________________________________________ 88 
X 
CAPÍTULO I. ASPECTOS GENERALES 
I.1. DESCRIPCIÓN DE LA SITUACIÓN ACTUAL 
En el Perú en el año 2018 el Ministerio del Interior implementó la campaña “Te estamos 
buscando” con la finalidad de distribuir notas de alertas de personas desaparecidas que estén 
en condición de riesgo, para que sus perfiles sean visualizados mediante diferentes medios de 
comunicación.  
Según el Registro Nacional de Información de Personas Desparecidas (RENIPED), el 2020 se 
registraron un total 18481 de personas desaparecidas, de los cuales 10605 (57.38%) eran 
menores de edad como se muestra en la Figura 1. 
Figura 1 
Distribución de personas desparecidas en el año 2020. 
Desaparecidos 2020
Mayores de edad
43% Mayores de edad
Menores de edad Menores de edad
57%
 
Nota. Proporción de personas desaparecidas en el año 2020 según su edad. 
¨Si bien en octubre de 2020 se presentó el nuevo Sistema de Búsqueda de 
Personas Desaparecidas —que incluye el Registro Nacional de Personas 
Desaparecidas (RENIPED), el Portal de Personas Desaparecidas, la Línea 114 
y el Sistema de Mensajería de Alerta Temprana de Emergencia 
(SISMATE)...Sumado a ello, dista todavía de ser un sistema interinstitucional, 
pues la búsqueda recae principalmente en la Policía Nacional del Perú y en el 
Ministerio del Interior (MININTER).¨ (Amnistía Internacional , 2021, pág. 4) 
1 
 
La iniciativa de la campaña mejora la distribución de información sobre los menores 
desaparecidos, pero no hace uso de los datos para mejorar las estrategias de búsqueda si no 
que plantea la acción rápida entre instituciones que como menciona Amnistía Internacional no 
cumple con sus fines por el momento. 
Ante el problema de falta de uso de los datos de perfiles de menores desaparecidos, se plantea 
la construcción de un modelo para descubrir los patrones subyacentes que podrían mostrar 
conocimiento sobre los casos de desaparición utilizando técnicas de Minería de datos y 
Análisis de Clustering. 
I.2. FORMULACIÓN DEL PROBLEMA 
I.2.1. PROBLEMA GENERAL 
¿Qué patrones se identificarán dentro del conjunto de datos de perfiles de menores 
desaparecidos mediante técnicas de minería de datos y análisis de clustering? 
I.2.2. PROBLEMAS ESPECÍFICOS 
• ¿De qué manera se puede recolectar la información de los perfiles de menores 
desaparecidos de la página web? 
• ¿Qué atributos de los perfiles se utilizarán para aplicar las técnicas de minería de datos 
y clustering? 
• ¿Qué estrategias de preprocesamiento se deben aplicar al conjunto de datos para 
realizar el análisis de clustering? 
• ¿Cuál es el número de clústeres adecuado para el conjunto de datos? 
• ¿Cuáles son las características de los patrones encontrados en el conjunto de datos? 
I.3. OBJETIVOS 
I.3.1. OBJETIVO GENERAL 
Determinar los patrones existentes dentro del conjunto de datos de los perfiles de menores 
desaparecidos mediante técnicas de minería de datos y análisis de clustering. 
2 
I.3.2. OBJETIVOS ESPECÍFICOS 
• Implementar una herramienta para recolectar el conjunto de datos de la página web de 
Te Estamos Buscando. 
• Seleccionar los atributos del conjunto de datos que sean más relevantes para aplicar 
las técnicas de minería de datos y clustering. 
• Seleccionar técnicas de preprocesamiento de datos previo al análisis de clustering. 
• Determinar el número de clústeres adecuado para el conjunto de datos. 
• Describir los clústeres determinados como óptimos para el conjunto de datos. 
I.4. HIPÓTESIS 
El estudio permite encontrar patrones (grupos) que comparten características dentro del 
conjunto de datos mediante la aplicación de técnicas de aprendizaje no supervisado con un 
nivel óptimo de validación. 
I.5. VARIABLES 
I.5.1. VARIABLE DEPENDIENTE 
• Nivel de eficiencia en segmentación de patrones del conjunto de datos 
Este nivel de eficiencia se refiere al resultado alcanzado por la estructura de clustering con un 
determinado número de clústeres seleccionado, cuyo criterio será el índice de Caliński y 
Harabasz y el índice de Davies-Bouldin. 
Nivel de eficiencia en segmentación de patrones: 
• El número de clústeres que maximice el índice de Caliński y Harabasz - (𝐶𝐶𝐶𝐶(𝑘𝑘))  y 
minimice el índice de Davies-Bouldin - 𝐷𝐷𝐷𝐷(𝑘𝑘) . 
Limitantes: 
• El Índice de Caliński y Harabasz debe ser un valor entero positivo mayor que 0. 
𝐶𝐶𝐶𝐶(𝑘𝑘) > 0 
3 
 
• El Índice de Davies-Bouldin debe estar en el rango entre -1 y 1. 
−1 <  𝐷𝐷𝐷𝐷(𝑘𝑘) > 1 
I.5.2. INDICADORES DE VARIABLE DEPENDIENTE 
• Número de clústeres. 
• Índice de Caliński y Harabasz. 
• Índice de Davies-Bouldin. 
I.6. JUSTIFICACIÓN 
I.6.1. CONVENIENCIA 
Las medidas implementadas por el Ministerio de Interior ayudan a la difusión de la 
información primordial para ubicar a las personas desaparecidas y al fácil acceso a los perfiles 
de dichas personas, pero este conjunto de datos no se reutiliza con otro fin dejando un vacío 
de conocimiento sobre la información recolectada. 
Por lo tanto, es necesario utilizar estos datos para obtener una mejor percepción sobre los 
casos de menores desaparecidos en el Perú. En este sentido, aplicar técnicas de aprendizaje no 
supervisado al conjunto de datos de los perfiles de personas desaparecidas permitirá visualizar 
los patrones (grupos subyacentes) que se encuentran implícitos en dicho conjunto de datos. 
I.6.2. RELEVANCIA SOCIAL 
Con la elaboración de esta investigación se pretende analizar los datos recolectados de los 
menores desaparecidos en el Perú, para así determinar si los patrones encontrados puedan ser 
útiles no solo para disminuir la cantidad de casos, sino también para mejorar las estrategias de 
búsqueda de los desaparecidos. 
I.6.3. IMPLICACIONES PRÁCTICAS 
Esta investigación nos ayudara a ver la importancia de los datos y su análisis. Además, nos 
permitirá plantear el uso de herramientas computacionales, capaces de reconocer patrones en 
los datos, a las entidades encargadas de combatir las desapariciones forzadas en el Perú con el 
fin de aplicar estrategias especializadas frente a los diferentes grupos encontrados.  
4 
I.6.4. VALOR TEÓRICO 
El agrupamiento (clustering) como estrategia de aprendizaje automático no supervisado se 
enfoca en reconocer grupos dentro de un conjunto de datos con registros no etiquetados, es 
decir, que ayuda a determinar que subconjuntos dentro de un conjunto de datos están más 
relacionados internamente (entre sus elementos) y menos relacionados externamente (entre 
subconjuntos), haciendo uso de una distancia calculada entre objetos para determinar la 
separación en un espacio multidimensional. 
Esta estrategia se aplicará al conjunto de datos de personas desaparecidas para extraer 
patrones, cuya información podrá ser utilizada para aplicar estrategias de respuesta específica 
para cada uno. Así mismo se busca nutrir las bases teóricas sobre el aprendizaje automático 
no supervisado y su aplicación frente a conjuntos de datos de diferente índole. 
I.7. METODOLOGÍA 
I.7.1. TIPO DE INVESTIGACIÓN 
El tipo de investigación a realizar en este proyecto será de tipo básica. Una investigación 
básica se define como aquella que, “… está dirigida a un conocimiento más completo a través 
de la comprensión de los aspectos fundamentales de los fenómenos, de los hechos observables 
o de las relaciones que establecen los entes” (CIENCIACTIVA, 2016, pág. 7). 
I.7.2. NIVEL DE INVESTIGACIÓN 
De acuerdo con la naturaleza del proyecto de investigación está alineada con el nivel 
descriptivo que, “… únicamente pretenden medir o recoger información de manera 
independiente o conjunta sobre los conceptos o las variables a las que se refieren, esto es, su 
objetivo no es indicar cómo se relacionan éstas” (Hernández Sampieri, Fernández Collado, & 
Baptista Lucio, 2014, pág. 92). 
En esta investigación se busca recolectar información de los perfiles de personas 
desaparecidas y a través de la aplicación de técnicas de aprendizaje no supervisado determinar 
la idoneidad y/o existencia de clústeres o patrones dentro del conjunto de datos para 
finalmente describirlos. 
5 
 
I.7.3. MÉTODO DE INVESTIGACIÓN 
La estrategia de investigación a utilizar será la de experimento, la cual “se enfoca en 
investigar algunas variables y las formas en que éstas se ven afectadas por las condiciones 
experimentales. Típicamente, los experimentos se utilizan para verificar o falsificar una 
hipótesis formulada previamente” (Berndtsson, Hansson, Olsson, & Lundell, 2007, pág. 65). 
El método por utilizar en este proyecto de investigación está alineado con el diseño 
experimental, que, según Hernández Sampieri y otros: “se utilizan cuando el investigador 
pretende establecer el posible efecto de una causa que se manipula” (pág. 130). 
En esta investigación se pretende experimentar con los datos recolectados de la página “Te 
Estamos Buscando” variando el número de clústeres que se utiliza como parámetro de entrada 
en las técnicas de clustering para así comparar los resultados de los índices de validación, 
dicho enfoque se inspira en las técnicas de validación relativa de clustering. Esto permitirá 
determinar el número de patrones que existen de forma natural dentro del conjunto de datos. 
6 
I.8. MATRIZ DE CONSISTENCIA 
Tabla 1 
Matriz de Consistencia. 
Problema Objetivo Hipótesis Metodología 
General General 
¿Qué patrones se identificarán dentro Determinar los patrones existentes 
del conjunto de datos de perfiles de dentro del conjunto de datos de los 
General 
menores desaparecidos mediante perfiles de menores desaparecidos 
El estudio permite encontrar patrones que 
técnicas de minería de datos y análisis mediante técnicas de minería de datos y 
comparten características dentro del 
de clustering? análisis de clustering. Tipo 
conjunto de datos mediante la aplicación 
Específicos Específicos Investigación 
de técnicas de aprendizaje no supervisado 
¿De qué manera se puede recolectar la Implementar una herramienta para de tipo básica 
con un nivel óptimo de validación. 
información de los perfiles de menores recolectar el conjunto de datos de la Nivel 
Nula 
desaparecidos de la página web? página web de “Te Estamos Buscando”. Descriptivo 
El estudio no permite encontrar patrones 
¿Qué atributos de los perfiles se Seleccionar los atributos del conjunto de Método 
que comparten características dentro del 
utilizarán para aplicar las técnicas de datos que sean más relevantes para Experimental 
conjunto de datos mediante la aplicación 
minería de datos y clustering? aplicar las técnicas de minería de datos 
de técnicas de aprendizaje no supervisado 
¿Qué estrategias de preprocesamiento y clustering. 
con un nivel óptimo de validación. 
de deben aplicar al conjunto de datos Seleccionar técnicas de 
para realizar el análisis de clustering? preprocesamiento de datos previo al 
¿Qué estrategias de preprocesamiento análisis de clustering. 
7 
 
de deben aplicar al conjunto de datos Determinar el número de clústeres 
para realizar el análisis de clustering? adecuado para el conjunto de datos. 
¿Cuál es el número de clústeres Describir los clústeres determinados 
adecuado para el conjunto de datos? como óptimos para el conjunto de datos. 
¿Cuáles son las características de los 
patrones encontrados en el conjunto de 
datos? 
 
8 
CAPÍTULO II. MARCO TEÓRICO 
II.1. ASPECTOS TEÓRICOS PERTINENTES 
II.1.1. DATA MINING 
Es un campo derivado de la estadística y las ciencias de la computación que busca generar 
información primordial que se convierte en conocimiento esencial a partir de una base de 
datos.  
Muchas personas tratan la minería de datos como sinónimo de otro término 
utilizado popularmente, descubrimiento de conocimiento a partir de datos o 
KDD (Knowledge discovery from data), mientras que otros ven la minería de 
datos como un simple paso esencial en el proceso de descubrimiento de 
conocimiento. (Han, Kamber, & Pei, 2011, pág. 6) 
El descubrimiento de conocimiento se da como una secuencia iterativa de los siguientes 
pasos:  
1. Limpieza de datos: remover ruido y datos inconsistentes. 
2. Integración de datos: combinar múltiples fuentes de datos. 
3. Selección de datos: recuperar datos relevantes para el análisis. 
4. Transformación de datos: transformar datos en formas adecuadas para su 
procesamiento. 
5. Procesamiento de datos (Data mining): aplicar métodos inteligentes para extraer 
patrones de datos. 
6. Evaluación de patrones: Identificar los patrones interesantes. 
7. Presentación de conocimientos: Presentar el conocimiento minado. 
9 
 
Figura 2 
La minería de datos como un paso en el proceso de descubrimiento de conocimiento. 
 
Nota. Pasos para obtener conocimiento de los datos, del paso 1 al 4 son diferentes formas de 
preprocesamiento de datos. Fuente: (Han, Kamber, & Pei, 2011, pág. 7). 
II.1.1.1. PREPROCESAMIENTO DE DATOS 
En la sección 2.1.1 hablamos de la secuencia de pasos que se deben de realizar para minar 
conocimiento de los datos. Una parte de estos pasos pertenecen a lo que llamamos el 
preprocesamiento de los datos que consiste en técnicas utilizadas para mejorar la calidad de 
nuestro conjunto de datos debido a que, “los datos de baja calidad conducirán a resultados de 
minería de baja calidad” (Han, Kamber, & Pei, 2011, pág. 83). 
Existen múltiples técnicas de preprocesamiento que podemos aplicar, estas son: 
1. Limpieza de datos. 
2. Integración de datos. 
3. Reducción de datos. 
10 
4. Transformación de datos. 
Estas técnicas se complementan entre sí para mejorar la calidad del conjunto de datos y su 
resultado puede “… mejorar la precisión y la eficiencia de los algoritmos de minería que 
involucran mediciones de distancia. Estas técnicas no se excluyen mutuamente; pueden 
trabajar juntos” (Han, Kamber, & Pei, 2011, pág. 83). 
II.1.1.1.1. LIMPIEZA DE DATOS 
Los datos del mundo real tienden a ser incompletos, ruidosos e inconsistentes. 
Las rutinas de limpieza de datos (o limpieza de datos) intentan completar los 
valores faltantes, suavizar el ruido al identificar valores atípicos y corregir 
inconsistencias en los datos. (Han, Kamber, & Pei, 2011, pág. 88) 
Para limpiar los datos se debe estudiar múltiples métodos básicos, dentro de estos 
encontramos métodos o técnicas para tratar los valores faltantes y el suavizado de datos. 
II.1.1.1.1.1 VALORES FALTANTES 
Típicamente podemos encontrar conjuntos de datos con valores faltantes o nulos, que pueden 
representar un mal almacenamiento o registro de los datos, o también esta situación se puede 
dar debido a que ciertos atributos de nuestros objetos de datos consideran valida la existencia 
y ausencia de los valores de algunos atributos (por ejemplo: los datos binarios). 
Para completar valores faltantes existen diferentes métodos, los cuales son:  
1. Ignorar la tupla: Consiste en ignorar los atributos de las tuplas con el valor faltante, 
esto se realiza generalmente cuando falta la etiqueta de la clase en problemas de 
clasificación, “Este método no es muy eficaz, a menos que la tupla contenga varios 
atributos con valores perdidos” (Han, Kamber, & Pei, 2011, pág. 88). 
2. Complete el valor faltante manualmente: Este método puede no ser conveniente, ya 
que consume mucho tiempo. 
3. Utilice una constante global para llenar el valor faltante:  Este puede ser un 
método simple, pero al utilizar el mismo valor para todos los atributos puede 
confundir al algoritmo y ser falible. 
11 
 
4. Utilice una medida de tendencia central para el atributo para completar el valor 
que falta: “Para distribuciones de datos normales (simétricas), se puede usar la media, 
mientras que la distribución de datos asimétrica debe emplear la mediana” (Han, 
Kamber, & Pei, 2011, pág. 88). 
5. Utilice el atributo medio o mediana para todas las muestras que pertenezcan a la 
misma clase que la tupla dada: Igualmente que el anterior método, dependiendo a la 
distribución de los datos podemos variar entre media y mediana. 
6. Utilice el valor más probable para completar el valor que falta: “Esto puede 
determinarse con regresión, herramientas basadas en inferencia utilizando un 
formalismo bayesiano o inducción de árbol de decisión” (Han, Kamber, & Pei, 2011, 
págs. 88,89). 
La mayoría de estos métodos sesgan los datos. Sin embargo, el último método mencionado es 
el más popular debido a que utiliza todos los datos posibles del conjunto para completar los 
valores faltantes. 
II.1.1.1.1.2 DATOS RUIDOSOS 
El ruido en los datos se define como “… un error aleatorio o una variación en una variable 
medida” (Han, Kamber, & Pei, 2011, pág. 89). Podemos utilizar métodos de visualización de 
datos para detectar valores atípicos o ruido en los atributos del conjunto de datos, la estrategia 
encargada de remover el ruido de los datos se denomina suavizado de datos. Dentro de esta 
existen técnicas como:  
1. Discretización (Binning): Suavizan un valor de datos ordenados observando los 
valores que lo rodean, los valores se distribuyen en múltiples contenedores. “Dado que 
los métodos de agrupación consultan la vecindad de valores, realizan un suavizado 
local” (Han, Kamber, & Pei, 2011, pág. 89). Cada contenedor tiene la misma cantidad 
de valores (o frecuencia) y para suavizarlo se puede realizar el reemplazo de valores 
usando la media, la mediana o los límites del contenedor, este último consiste en 
reemplazar los valores dentro de un contenedor con el límite más cercano el valor. 
12 
Figura 3 
Métodos de Discretización (Binning) para suavizado de datos. 
 
Nota. Fuente: (Han, Kamber, & Pei, 2011, pág. 90) 
2. Regresión: “El suavizado de datos también se puede realizar mediante regresión, una 
técnica que adapta los valores de los datos a una función” (Han, Kamber, & Pei, 2011, 
pág. 90). Existen regresión lineal (2 dimensiones) y regresión lineal múltiple (3 o más 
dimensiones), esta técnica busca encontrar la mejor línea o figura (dependiendo de las 
dimensiones) a la que los valores se ajusten para así poder predecir el valor de una 
dimensión usando otro atributo. 
3. Análisis de valores atípicos: los valores atípicos pueden ser detectados por métodos 
visuales o por medio de clustering, así cualquier valor que este fuera de los clústeres 
se consideran atípicos. 
13 
 
Figura 4 
Una gráfica de datos de clientes en 2-D con respecto a las ubicaciones de los clientes en una ciudad, 
que muestra tres grupos de datos. 
 
Los valores atípicos pueden detectarse como valores que quedan fuera de los conjuntos de grupos. 
Fuente: (Han, Kamber, & Pei, 2011, pág. 91). 
Varios métodos de suavizado de datos pueden ser utilizados para transformación o reducción 
de datos, como es el caso de la discretización (Binning) que reduce la cantidad de valores 
distintos dentro de un conjunto de datos. 
II.1.1.1.2. INTEGRACIÓN DE DATOS 
La integración de datos consiste en “la fusión de datos de varios almacenes de datos” (Han, 
Kamber, & Pei, 2011, pág. 93). Este proceso puede convertirse en uno muy complejo 
dependiendo a las características de los datos y de las fuentes de donde se extraen, por esta 
razón se presentan diferentes problemas en la integración de datos, entre estos están: 
II.1.1.1.2.1 PROBLEMA DE IDENTIFICACIÓN DE ENTIDADES. 
Este problema se centra en identificar que atributos que corresponden o están relacionados 
entre diferentes conjuntos de datos; esto se debe realizar previo a la integración de datos, 
debido a que pueden existir incongruencias en las características de los atributos causando así 
una mala integración de datos. 
14 
Para solucionar este problema se debe realizar una comparación de las entidades albergadas 
en las diferentes fuentes de datos que se utilizaran, es necesario analizar los conocimientos 
previos que tenemos de cada atributo, conocidos como “metadatos” dentro de los cuales están 
las características de los atributos como el nombre, el significado, el tipo de dato, el rango de 
valores permitidos y las reglas que se aplican a cada uno. 
II.1.1.1.2.2 ANALISÍS DE REDUNDANCIA Y CORRELACIÓN. 
Después de realizar la integración de datos podemos encontrarnos con problemas de 
redundancia, debido a que se integran múltiples conjuntos de datos. “Algunas redundancias 
pueden detectarse mediante análisis de correlación” (Han, Kamber, & Pei, 2011, pág. 94).  
El análisis de correlación se realiza tomando dos atributos y se determina la técnica a utilizar 
según los tipos de datos, entre estas técnicas están la de chi-cuadrado para datos nominales y 
coeficiente de correlación y la covarianza para datos numéricos; con estas técnicas podemos 
medir que tanto influye una variable en la otra basándonos en los registros actuales. 
A. Prueba de correlación para datos nominales (chi-cuadrado). 
Dados dos atributos A y B, la prueba de chi-cuadrado (𝑋𝑋2) se calcula como: 
𝑐𝑐 𝑟𝑟
2 �𝑜𝑜𝑖𝑖𝑖𝑖 −  𝑒𝑒𝑖𝑖𝑖𝑖�
2
𝑋𝑋 = ��  
𝑒𝑒
𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖𝑖𝑖
Donde:  
• 𝑐𝑐: número de columnas. 
• 𝑟𝑟: número de filas. 
• 𝑜𝑜𝑖𝑖𝑖𝑖: frecuencia observada. 
• 𝑒𝑒𝑖𝑖𝑖𝑖: frecuencia esperada. 
𝑐𝑐𝑜𝑜𝑐𝑐𝑐𝑐𝑐𝑐(𝐴𝐴 = 𝑎𝑎𝑖𝑖) × 𝑐𝑐𝑜𝑜𝑐𝑐𝑐𝑐𝑐𝑐(𝐵𝐵 = 𝑏𝑏𝑖𝑖)𝑒𝑒𝑖𝑖𝑖𝑖 =  𝑐𝑐
Donde: 
15 
 
• 𝑐𝑐: número de tuplas de datos. 
• 𝑐𝑐𝑜𝑜𝑐𝑐𝑐𝑐𝑐𝑐(𝐴𝐴 = 𝑎𝑎𝑖𝑖): número de tuplas que tienen el valor 𝑎𝑎𝑖𝑖 para 𝐴𝐴. 
• 𝑐𝑐𝑜𝑜𝑐𝑐𝑐𝑐𝑐𝑐(𝐵𝐵 = 𝑏𝑏𝑖𝑖): número de tuplas que tienen el valor de 𝑏𝑏𝑖𝑖 para 𝐵𝐵. 
El estadístico de chi-cuadrado “prueba la hipótesis de que A y B son independientes, es decir, 
no existe correlación entre ellos. La prueba se basa en un nivel de significancia, con (𝑟𝑟 −
1) × (𝑐𝑐 − 1) grados de libertad” (Han, Kamber, & Pei, 2011, pág. 95). 
B. Coeficiente de correlación para datos numéricos. 
Dados dos atributos A y B, el coeficiente de correlación se calcula como: 
∑𝑛𝑛𝑖𝑖=1(𝑎𝑎𝑖𝑖 − ?̅?𝐴)(𝑏𝑏𝑖𝑖 − 𝐵𝐵�) ∑𝑛𝑛𝑖𝑖=1(𝑎𝑎𝑟𝑟 = = 𝑖𝑖
𝑏𝑏𝑖𝑖) − 𝑐𝑐?̅?𝐴𝐵𝐵�
𝐴𝐴,𝐵𝐵  𝑐𝑐𝜎𝜎𝐴𝐴𝜎𝜎𝐵𝐵 𝑐𝑐𝜎𝜎𝐴𝐴𝜎𝜎𝐵𝐵
 
Donde: 
• 𝑐𝑐: número de tuplas. 
• 𝑎𝑎𝑖𝑖 , 𝑏𝑏𝑖𝑖: valor de 𝐴𝐴,𝐵𝐵 en la tupla 𝑖𝑖. 
• ?̅?𝐴,𝐵𝐵� : medias de 𝐴𝐴,𝐵𝐵. 
• 𝜎𝜎𝐴𝐴,𝜎𝜎𝐵𝐵: las desviaciones estándar de 𝐴𝐴,𝐵𝐵. 
• ∑𝑛𝑛𝑖𝑖=1(𝑎𝑎𝑖𝑖𝑏𝑏𝑖𝑖): la suma del producto cruz de 𝐴𝐴𝐵𝐵. 
Se debe tener en cuenta que: −1 ≤ 𝑟𝑟𝐴𝐴,𝐵𝐵 ≤ +1. Si el valor resultante es mayor que 0 indica 
una correlación positiva, si es menor que 0 indica una correlación negativa y si el valor es 
igual a 0 indica que los atributos son independientes. 
C. Covarianza de datos numéricos. 
Dados dos atributos A y B, los valores esperados (media) se calculan como: 
16 
𝑛𝑛 𝑛𝑛
𝐸𝐸(𝐴𝐴) = ?̅?𝐴 = �𝑎𝑎𝑖𝑖  ⋀  𝐸𝐸(𝐵𝐵) = 𝐵𝐵� = �𝑏𝑏𝑖𝑖 
𝑖𝑖=1 𝑖𝑖=1
Donde: n – número de tuplas. 
Y la covarianza entre 𝐴𝐴 y 𝐵𝐵 se define como: 
∑𝑛𝑛 (𝑎𝑎 − ?̅?𝐴)(𝑏𝑏 − 𝐵𝐵�)
𝐶𝐶𝑜𝑜𝐶𝐶(𝐴𝐴,𝐵𝐵) = 𝐸𝐸�(𝐴𝐴 − ?̅?𝐴)(𝐵𝐵 − 𝐵𝐵�)� = 𝑖𝑖=1 𝑖𝑖 𝑖𝑖  
𝑐𝑐
Si comparamos las dos últimas ecuaciones (covarianza y coeficiente de correlación), vemos 
que: 
𝐶𝐶𝑜𝑜𝐶𝐶(𝐴𝐴,𝐵𝐵)
𝑟𝑟𝐴𝐴,𝐵𝐵 =  𝜎𝜎𝐴𝐴𝜎𝜎𝐵𝐵
 
II.1.1.1.2.3 DUPLICACIÓN DE TUPLAS. 
Discrepancias surgen debido a la duplicidad de tuplas que se puede dar por una entrada de 
datos inexacta o por la falta de actualización de algunos registros. Según Han, Kamber y Pei: 
“Además de detectar redundancias entre atributos, la duplicación también debe detectarse a 
nivel de tupla” (pág. 98).  
II.1.1.1.2.4 DETECCIÓN Y RESOLUCIÓN DE CONFLICTOS DE VALOR DE 
DATOS 
Cuando se integran múltiples conjuntos de datos surgen conflictos, como los mencionados en 
los puntos anteriores por esta razón el proceso de integración de datos “… también involucra 
la detección y resolución de conflictos de valor de datos. … Esto puede deberse a diferencias 
en la representación, escala o codificación” (Han, Kamber, & Pei, 2011, pág. 99). 
II.1.1.1.3. REDUCCIÓN DE DATOS 
Debido a las características de los conjuntos de datos que se manejan en la actualidad es 
común encontrarnos con múltiples inconsistencias; debido a esto, además de realizar un 
análisis visual de los registros es necesario aplicar técnicas que ayuden a mejorar la relevancia 
de los datos y reducir su complejidad de procesamiento. 
17 
 
Se pueden aplicar técnicas de reducción de datos para obtener una 
representación reducida del conjunto de datos que es mucho más pequeño en 
volumen, pero que mantiene fielmente la integridad de los datos originales. Es 
decir, la minería en el conjunto de datos reducido debería ser más eficiente, 
pero producir los mismos (o casi los mismos) resultados analíticos.  (Han, 
Kamber, & Pei, 2011, pág. 99) 
Para realizar este proceso podemos aplicar diferentes estrategias, entre las cuales están: 
• Reducción de dimensionalidad: Según Han, Kamber y Pei (2011): “… es el proceso 
de reducir la cantidad de variables aleatorias o atributos bajo consideración” (pág. 99). 
Entre los métodos de esta estrategia podemos encontrar: transformaciones de 
ondículas (Wavelet Transforms), análisis de componentes principales (Principal 
Components Analysis) y selección de subconjuntos de atributos. Además, “… es una 
técnica popular para eliminar atributos ruidosos (es decir, irrelevantes) y redundantes 
(también conocidos como características)” (Aggarwal & Reddy, 2014, pág. 30). 
• Reducción de numerosidad: Es el proceso en el cual se utilizan técnicas que “… 
reemplazan el volumen de datos original por formas alternativas más pequeñas de 
representación de datos” (Han, Kamber, & Pei, 2011, pág. 100). Las técnicas de esta 
estrategia pueden ser paramétricas o no paramétricas, las paramétricas solo necesitan 
guardar los parámetros utilizados para reproducir los datos en lugar del conjunto de 
datos y, por otro lado, entre las técnicas no paramétricas podemos encontrar 
histogramas, agrupamiento, muestreo y agregación de cubos de datos. 
• Compresión de datos: En esta estrategia “… se aplican transformaciones para 
obtener una representación reducida o comprimida de los datos originales” (Han, 
Kamber, & Pei, 2011, pág. 100). Si los datos originales pueden ser reconstruidos en su 
totalidad sin pérdida de información a partir de los datos comprimidos, se le denomina 
sin perdida. Por otro lado, si solo podemos reconstruir una aproximación de los datos 
originales se denomina con perdida. 
18 
II.1.1.1.3.1 ANÁLISIS DE COMPONENTES PRINCIPALES (PCA) 
Cuando se manejan conjuntos de datos de alta dimensionalidad con atributos correlacionados, 
“los componentes principales nos permiten resumir este conjunto con un número menor de 
variables representativas que explican colectivamente la mayor parte de la variabilidad en el 
conjunto original” (James, Witten, Hastie, & Tibshirani, 2013, pág. 374). Este proceso de 
análisis comprende el cálculo de los componentes principales y su uso para comprender los 
datos. 
Además, nos sirve como herramienta para la visualización de datos, debido a que los 
conjuntos de alta dimensionalidad no pueden ser representados adecuadamente en todas sus 
dimensiones o, por otro lado, tendríamos que realizar 𝑝𝑝(𝑝𝑝 − 1) diagramas de dispersión en 
dos dimensiones, donde: 𝑑𝑑 es el número de características o dimensiones del conjunto de 
datos, cuya dispersión de dimensiones no permitiría el análisis visual adecuado de los 
registros. Por lo tanto, un conjunto considerando solo los componentes principales, que no son 
más que combinaciones lineales de las dimensiones iniciales, nos permitiría representar el 
mayor porcentaje de características de los datos en un número de dimensiones reducido. 
Los componentes principales o las nuevas dimensiones reducidas se calculan de la siguiente 
manera: El primer componente principal de un conjunto de características 𝑋𝑋1,𝑋𝑋2, … ,𝑋𝑋𝑝𝑝 es la 
combinación lineal normalizada de estas: 
𝑍𝑍1 = 𝜙𝜙11𝑋𝑋1 + 𝜙𝜙21𝑋𝑋2 + ⋯+ 𝜙𝜙𝑑𝑑1𝑋𝑋𝑝𝑝 
En este componente se contiene la mayor cantidad de varianza del conjunto de datos en todas 
sus dimensiones y es normalizado debido a que cada dimensión tiene una carga tal que 
∑𝑝𝑝 2𝑖𝑖=1𝜙𝜙𝑖𝑖1 = 1. Juntas las cargas conforman el vector de carga del componente principal, 𝜙𝜙1 =
�𝜙𝜙11 𝜙𝜙
𝑇𝑇
21 … 𝜙𝜙𝑝𝑝1� . 
Dado un conjunto de datos 𝑋𝑋 de 𝑐𝑐 × 𝑝𝑝, para calcular el componente principal primero cada 
registro del conjunto 𝑋𝑋 debe tener una media de cero. Luego se calcula la combinación lineal 
de los valores de cada dimensión: 
𝓏𝓏𝑖𝑖1 = 𝜙𝜙11𝑥𝑥𝑖𝑖1 + 𝜙𝜙21𝑥𝑥𝑖𝑖2 + ⋯+ 𝜙𝜙𝑝𝑝1𝑥𝑥𝑖𝑖𝑝𝑝 
19 
 
“En otras palabras, el primer vector de carga del componente principal resuelve el problema 
de optimización” (James, Witten, Hastie, & Tibshirani, 2013, p. 376). 
𝑛𝑛 𝑝𝑝 2 𝑑𝑑
1
max � ���𝜙𝜙 𝑥𝑥 � �  𝑠𝑠𝑐𝑐𝑠𝑠𝑒𝑒𝑐𝑐𝑜𝑜 𝑎𝑎 �𝜙𝜙2 = 1 
𝜙𝜙11,…,𝜙𝜙 𝑐𝑐 𝑖𝑖1 𝑖𝑖𝑖𝑖 𝑖𝑖1𝑝𝑝1
𝑖𝑖=1 𝑖𝑖=1 𝑖𝑖=1
Por lo tanto, el objetivo de la función será 1 ∑𝑛𝑛 𝓏𝓏2 1 𝑛𝑛
𝑛𝑛 𝑖𝑖=1 𝑖𝑖1
. Dado que ∑𝑖𝑖=1 𝑥𝑥𝑖𝑖𝑖𝑖 = 0, el promedio 𝑛𝑛
de 𝓏𝓏11, … ,𝓏𝓏𝑛𝑛1 también será cero.  
Hay una buena interpretación geométrica para el primer componente principal. 
El vector de carga 𝜙𝜙1 con elementos 𝜙𝜙11,𝜙𝜙21,, … ,𝜙𝜙𝑝𝑝1 define una dirección en 
el espacio de características a lo largo de la cual los datos varían más. Si 
proyectamos los n puntos de datos 𝑥𝑥1, … , 𝑥𝑥𝑛𝑛 en esta dirección, los valores 
proyectados son las puntuaciones de los componentes principales 𝓏𝓏11, … ,𝓏𝓏𝑛𝑛1 
ellos mismos. (James, Witten, Hastie, & Tibshirani, 2013, p. 376) 
Después de calcular el primer componente principal 𝑍𝑍1 de las características; procedemos con 
el cálculo del segundo componente principal 𝑍𝑍2, este es la combinación lineal de 𝑋𝑋1, … ,𝑋𝑋𝑝𝑝 
que tiene la máxima varianza de todas las combinaciones lineales que no están relacionadas 
con 𝑍𝑍1. Las puntuaciones del segundo componente principal 𝓏𝓏12, … ,𝓏𝓏𝑛𝑛2 toman la forma: 
𝓏𝓏𝑖𝑖2 = 𝜙𝜙12𝑥𝑥𝑖𝑖1 + 𝜙𝜙22𝑥𝑥𝑖𝑖2 + ⋯+ 𝜙𝜙𝑝𝑝2𝑥𝑥𝑖𝑖𝑝𝑝 
Donde 𝜙𝜙2 es el segundo vector de carga del componente principal conformado por 
𝜙𝜙11,𝜙𝜙21,, … ,𝜙𝜙𝑝𝑝1. Para evitar que 𝑍𝑍1 y 𝑍𝑍2 estén relacionados la dirección de 𝜙𝜙2 tiene que ser 
ortonormal (perpendicular) a la dirección de 𝜙𝜙1. 
20 
Figura 5 
El tamaño de la población y la inversión publicitaria de 100 ciudades diferentes se muestran como 
círculos de color purpura. La línea verde continua indica el primer componente principal y la línea 
discontinua azul indica el segundo componente principal. 
 
Nota. Fuente: (James, Witten, Hastie, & Tibshirani, 2013, pág. 230) 
II.1.1.1.4. TRANSFORMACIÓN DE DATOS 
“En este paso de preprocesamiento, los datos se transforman o consolidan para que el proceso 
de minería resultante sea más eficiente y los patrones encontrados sean más fáciles de 
entender” (Han, Kamber, & Pei, 2011, pág. 111). 
Dentro de los métodos de transformación de datos encontramos: 
1. Suavizado: Elimina el ruido de los datos. 
2. Construcción de atributos: Crea nuevos atributos o características para facilitar el 
proceso de minería. 
3. Agregación: Aplica operaciones a los datos para acumularlos o extraer un resumen 
según parámetros especificados. 
21 
 
4. Normalización: Escala los datos para ponerlos dentro de un rango de valores más 
pequeño. 
5. Discretización: Cambia los valores numéricos por etiquetas de conceptos o rangos, 
posteriormente se puede organizar recursivamente dichas etiquetas para crear una 
jerarquización de conceptos de nivel superior para el valor numérico. 
6. Generación de jerarquías para conceptos de datos nominales: Cambia los valores 
de atributos nominales para generalizarlos en conceptos de nivel superior. 
II.1.1.1.4.1 TRANSFORMACIÓN DE ATRIBUTOS DISCRETOS A NUMÉRICOS  
La mayoría de los algoritmos de aprendizaje automático están enfocados en manejar datos 
numéricos, como es el caso de k-means enfocado a utilizar las medias del conjunto de datos 
para determinar un centro de clúster y también realiza el cálculo de la distancia tomando en 
cuenta estrategias (como la distancia Euclidiana) que sean eficientes. 
Pero al tratarse dentro de un contexto distinto como son los datos con atributos mixtos 
(numéricos y nominales), se busca estrategias de conversión que ajusten los datos nominales a 
numéricos. 
Una técnica sugiere dar un valor numérico que represente las posibles variantes del atributo 
nominal, por ejemplo: Rojo=0, Azul=1 y Verde=2 pueden ser considerados como valores 
nominales y su asignación numérica respectivamente, pero no representaría una codificación 
adecuada, debido a que la distancia calculada es diferente entre cada uno de los valores. Esta 
técnica podría utilizarse con los datos de tipo nominal ordinal. 
Por otro lado, Witten, Frank y Hall recomiendan que se “reemplace un atributo nominal con 
valor k por k atributos binarios sintéticos, uno por cada valor que indica si el atributo tiene ese 
valor o no” (pág. 322), esto mejora la precisión de la distancia o similitud calculada entre los 
registros. 
22 
II.1.2. APRENDIZAJE AUTOMÁTICO 
El aprendizaje automático, aprendizaje de maquina o “Machine Learning”, también 
denominado aprendizaje estadístico, forma parte del campo de la Inteligencia Artificial, se 
enfoca en obtener conocimiento a partir del análisis de los datos y transferirlo a la máquina. 
Además, Alpaydin menciona que “El aprendizaje automático consiste en programar 
computadoras para optimizar un criterio de rendimiento utilizando datos de ejemplo o 
experiencias pasadas” (pág. 3). 
Por lo tanto, el termino de “aprender” o “aprendizaje” en este contexto no tiene una definición 
concreta, según Witten, Ian H. y otros “Las cosas aprenden cuando cambian su 
comportamiento de una manera que los hace desempeñarse mejor en el futuro” (pág. 7). 
También se define que “El aprendizaje implica pensamiento y propósito. Algo que aprende 
tiene que hacerlo de forma intencionada. … Aprender sin propósito es simplemente 
entrenamiento” (Witten, Frank, & Hall, 2005). Entonces, el aprendizaje que es parte de esta 
teoría se define mejor como entrenamiento vinculándolo así con el desempeño en lugar del 
conocimiento. 
Dentro del campo del aprendizaje automático, podemos disgregar o clasificar tres tipos: 
aprendizaje supervisado, aprendizaje no supervisado y el semi-supervisado. 
II.1.2.1. APRENDIZAJE SUPERVISADO 
También conocido como aprendizaje de clasificación, obtiene conocimiento de datos 
etiquetados para poder formular una función que pueda predecir los futuros casos de datos sin 
etiquetar. Es decir, este aprendizaje tiene un esquema que “… se presenta con un conjunto de 
ejemplos clasificados de los que se espera aprender una forma de clasificar ejemplos no 
vistos” (Witten, Frank, & Hall, 2005, pág. 40). 
Este aprendizaje puede subdividirse a la vez en regresión o clasificación de acuerdo con la 
etiqueta de respuesta. “Si las etiquetas son discretas, el problema de aprendizaje se llama 
problema de clasificación, porque los patrones se asignan a las clases... Si las etiquetas son 
continuas, la tarea es un problema de regresión” (Kramer, 2013, pág. 3). 
23 
 
En los problemas de clasificación “… el objetivo es predecir una etiqueta de clase, que es una 
elección de una lista predefinida de posibilidades” (Müller & Guido, 2016, pág. 25). Por otro 
lado, en regresión “… el objetivo es predecir un número continuo o un número de punto 
flotante en términos de programación (o un número real en términos matemáticos)” (Müller & 
Guido, 2016, pág. 26). 
II.1.2.2. APRENDIZAJE SEMI-SUPERVISADO 
Denominamos aprendizaje semi-supervisado a aquel se ubica en un punto medio entre el 
aprendizaje supervisado y no supervisado, el cual “... se refiere al caso en el que se aprende 
una función de predicción en ejemplos de entrenamiento etiquetados y no etiquetados” 
(Amini & Usunier, 2015, pág. 33). Además, esta estrategia de aprendizaje busca usar métodos 
“que amplifican pequeñas cantidades de datos de entrenamiento etiquetados en más” (Skiena, 
2017, pág. 374). 
Debido al costo de la elaboración de un conjunto de datos etiquetados, el aprendizaje semi-
supervisado es una opción viable cuyas características han demostrado una brecha corta con el 
aprendizaje supervisado en términos de desempeño. Según Theodoridis & Koutroumbas: “el 
aprendizaje semi-supervisado está ganando importancia en los últimos años y actualmente se 
encuentra entre las áreas de investigación más candentes” (pág. 568). 
II.1.2.3. APRENDIZAJE NO SUPERVISADO 
En el aprendizaje supervisado, el objetivo es aprender una asignación de la 
entrada a una salida cuyos valores correctos son proporcionados por un 
supervisor. En el aprendizaje no supervisado, no existe tal supervisor y solo 
tenemos datos de entrada. El objetivo es encontrar las regularidades en la 
entrada. El espacio de entrada tiene una estructura tal que ciertos patrones 
ocurren con más frecuencia que otros, y queremos ver qué sucede 
generalmente y qué no. (Alpaydin, 2009, pág. 11) 
El aprendizaje no supervisado encuentra estructuras en los datos. Las 
etiquetas para las instancias de datos u otras formas de orientación para la 
capacitación no son necesarias. Esto hace que el aprendizaje no supervisado 
sea atractivo en aplicaciones donde los datos son baratos de obtener, pero las 
etiquetas son caras o no están disponibles. (Wittek, 2014, pág. 57) 
24 
Un algoritmo enfocado a este tipo de aprendizaje automatizado debe ser capaz de identificar 
estructuras utilizando solo los registros de los datos. Según Alpaydin el aprendizaje no 
supervisado: “En estadística, es llamado estimación de densidad. … Un método para la 
estimación de densidad es el clustering donde el objetivo es encontrar grupos o agrupaciones 
de entrada” (pág. 11). 
Podemos definir entonces al aprendizaje no supervisado como una técnica que busca 
descubrir información oculta dentro de los datos para generar conocimiento. Además, James y 
otros mencionan que “El aprendizaje no supervisado a menudo se realiza como parte de un 
análisis de datos exploratorio” (p. 374).  
II.1.2.3.1. CLUSTERING 
“Es el proceso de encontrar grupos significativos en los datos. En clustering, el objetivo no es 
predecir una variable de clase objetivo, sino simplemente capturar las posibles agrupaciones 
naturales en los datos” (Kotu & Deshpande, 2018, pág. 221). 
El análisis de clustering o simplemente clustering es el proceso de 
particionar un conjunto de objetos de datos (u observaciones) en subconjuntos. 
Cada subconjunto es un clúster, de modo que los objetos en un clúster son 
similares entre sí, pero diferentes a los objetos en otros clústeres. El conjunto 
de clústeres resultantes de un análisis de clúster puede denominarse clustering. 
En este contexto, diferentes métodos de clustering pueden generar diferentes 
agrupaciones en el mismo conjunto de datos. La partición no es realizada por 
humanos, sino por el algoritmo de clustering. Por lo tanto, clustering es útil 
porque puede conducir al descubrimiento de grupos dentro de los datos. (Han, 
Kamber, & Pei, 2011, pág. 444) 
25 
 
Como función de minería de datos, el clustering se puede utilizar como una 
herramienta independiente para obtener información sobre la 
distribución de datos, observar las características de cada clúster y 
enfocarse en un conjunto particular de clústeres para un análisis 
posterior. Alternativamente, puede servir como un paso de 
preprocesamiento para otros algoritmos, como caracterización, 
selección de subconjuntos de atributos y clasificación, que luego 
operarían en los grupos detectados y los atributos o características 
seleccionados. (Han, Kamber, & Pei, 2011, pág. 445) 
II.1.2.3.1.1 CLUSTERING PARA DESCRIBIR LOS DATOS 
“La aplicación más común de clustering es explorar los datos y encontrar todos los grupos 
significativos posibles en los datos” (Kotu & Deshpande, 2018, pág. 221). 
Algunas de las aplicaciones de clustering para describir datos son: 
• Marketing: Encontrar grupos de clientes basados en sus comportamientos previos, 
atributos de los clientes potenciales y patrones de compra. Esto es útil para ajustar el 
mensaje de marketing a los diferentes grupos de clientes. 
• Clustering de documentos: Este provee una forma de identificar los temas clave, 
comprender y resumir estos grupos en vez de leer documentos completos. 
• Agrupación de sesiones: En la analítica web el clustering es útil para detectar los 
patrones de comportamiento de los usuarios dentro de una página web, mediante el 
almacenamiento de la transmisión de sus acciones. 
26 
II.1.2.3.1.2 CLUSTERING PARA PREPROCESAMIENTO 
Dado que los procesos de clustering consideran todos los atributos del 
conjunto de datos y "reducen" la información a un clúster, que es realmente 
otro atributo, el clustering puede usarse como una técnica de compresión de 
datos. El resultado del clustering es el nombre del grupo para cada registro y se 
puede usar como una variable de entrada para otras tareas de minería de datos 
predictivos. Por lo tanto, el clustering puede emplearse como una técnica de 
preprocesamiento para otros procesos de minería de datos. (Kotu & 
Deshpande, 2018, pág. 222) 
Este puede ser usado para dos tipos de preprocesamiento: 
• Clustering para reducir dimensionalidad: En todo conjunto de datos con una 
determinada cantidad de dimensiones existe una complejidad de cálculo proporcional 
al número de dimensiones. Con el clustering podemos reducir la dimensionalidad de 
un conjunto de datos a un atributo categórico reduciendo así la complejidad, aunque 
también involucrara pérdida de información. 
• Clustering para reducción de objetos: Mediante el clustering podemos formar 
clústeres dentro del conjunto de datos, con lo cual podemos reducir la cantidad de 
objetos a prototipos de los clústeres encontrados, cuyos atributos sean los más 
representativos de los clústeres. Finalmente podríamos utilizar estos prototipos para 
realizar un análisis con algoritmos de regresión o clasificación, lo que conllevaría a 
una reducción en el tiempo de procesamiento. 
II.1.2.3.1.2.1 TIPOS DE TECNICAS DE CLUSTERING 
Sin importar los tipos de técnicas de clustering, el objetivo de todos es encontrar los 
subgrupos del conjunto de datos, de tal forma que los objetos que se encuentren dentro de un 
clúster sean más similares entre sí que a los objetos de otros clústeres. “Una de las formas 
comunes de medir la similitud es la medición de distancia euclidiana en el espacio n-
dimensional que se utiliza en muchos algoritmos de agrupamiento” (Kotu & Deshpande, 
2018, pág. 223). 
27 
 
Figura 6 
Ejemplo de clustering del conjunto de datos iris sin etiquetas de clase. 
 
Nota. Fuente: (Kotu & Deshpande, 2018, pág. 220). 
Antes de proceder con la clasificación de las técnicas de clustering debemos tener en cuenta como se distribuyen 
los clústeres de acuerdo con la pertenencia de sus objetos, según esto los clústeres se dividen en: 
• Clústeres de partición exclusiva o estricta: Donde cada registro pertenece a un 
único clúster. 
• Clústeres superpuestos: Los clústeres no son exclusivos y un registro puede 
pertenecer a más de uno. 
• Clústeres jerárquicos: Los clústeres pueden dividirse o aglomerarse y existen 
clústeres padres e hijos. 
• Clústeres difusos o probabilísticos: Donde cada registro es parte de todos los 
clústeres variando en un grado de pertenencia entre 0 y 1. 
Las técnicas de clustering también se pueden clasificar en función del enfoque 
algorítmico utilizado para encontrar clústeres en el conjunto de datos. Cada 
una de estas clases de algoritmos de agrupación difiere según la relación que 
aprovechan entre los objetos de datos. (Kotu & Deshpande, 2018, pág. 224) 
28 
• Clustering basado en prototipos: Donde cada clúster es representado por un objeto 
central, llamado prototipo, que a menudo es el centro de dicho clúster por lo cual 
también es denominado como clustering basado en el centro. 
• Clustering de densidad: Donde los clústeres son denominados de acuerdo con la 
densidad de los objetos en el espacio y son rodeados por áreas de objetos de baja 
densidad. 
• Clustering jerárquico: Es un proceso donde se crea una jerarquía de clústeres de 
acuerdo con la distancia entre sus puntos. El resultado de este tipo es un dendrograma, 
el cual es un diagrama de árbol donde se puede observar diferentes clústeres de 
acuerdo con un punto de precisión. Hay dos enfoques para crear una jerarquía de 
clústeres: aglomerativo (de abajo hace arriba) y divisivo (de arriba hace abajo). 
• Clustering basado en modelos: Esta basado en la estadística y los modelos de 
distribución de probabilidad, en este los clústeres pueden ser vistos como 
agrupaciones que tienen los objetos pertenecientes a una misma distribución de 
probabilidad. 
II.1.2.3.1.2.2 VALIDEZ DEL CLÚSTER 
Cada algoritmo puede particionar datos, pero diferentes algoritmos o 
parámetros de entrada causan diferentes agrupaciones o revelan diferentes 
estructuras de agrupación. Por lo tanto, el problema de evaluar objetiva y 
cuantitativamente los grupos resultantes, o si la estructura de agrupamiento 
derivada es significativa, lo que se conoce como validación de grupos, es 
particularmente importante (Dubes, 1993; Gordon, 1998; Halkidi et al., 2002; 
Jain y Dubes, 1988). (Xu & Wunsch, 2008, pág. 221) 
La validación de clúster es necesaria para determinar cuál es la eficiencia a la hora de 
particionar un conjunto de datos, con esto se puede corroborar una hipótesis planteada 
previamente. También es necesario realizar la validación previa a la aplicación de las técnicas 
de clustering para determinar si los datos poseen una estructura que se pueda agrupar. 
Dentro de las formas de validación del clustering existen diferentes criterios a tomar en 
cuenta, estos son: 
29 
 
• Criterio externo: Compara la estructura de clustering obtenida y una estructura 
previamente especificada. Algunos índices externos son: índice rand, coeficiente 
Jaccard, índice Fowlkes y Mallows y estadísticas 𝛤𝛤. 
• Criterio interno: Evalúa la estructura de clustering exclusivamente usando el 
conjunto de datos que se tiene, sin ninguna información externa. 
• Criterio relativo: Compara una estructura de clustering determinada con otras, 
obtenidas de la aplicación de diferentes algoritmos de clustering o el mismo algoritmo 
con diferentes parámetros. 
1. CRITERIO RELATIVO 
Los criterios internos y externos requieren de pruebas estadísticas, lo cual puede demandar un 
alto rendimiento computacional. Este criterio elimina dichos requerimientos y se concentra en 
la comparación de los resultados de diferentes algoritmos de clustering o de uno solo con 
diferentes parámetros. 
Con este criterio se puede resolver un problema conocido, el cual es determinar el número 
real de clústeres que se encuentra dentro de un conjunto de datos al cual denominaremos k. 
Para los algoritmos jerárquicos k nos indica donde cortar el dendrograma y para los 
algoritmos basados en prototipos es el parámetro más importante.  
Ya sea sobreestimación o subestimación de K afectará la calidad de los grupos 
resultantes. Una partición con demasiados grupos complica la verdadera 
estructura de agrupamiento, por lo que es difícil interpretar y analizar los 
resultados. Por otro lado, una partición con muy pocos grupos causa la pérdida 
de información y confunde la decisión final. En la siguiente sección, nos 
centramos en los métodos, índices y criterios utilizados para abordar este 
problema fundamental. (Xu & Wunsch, 2008, pág. 268) 
30 
1.1. VISUALIZACIÓN DE DATOS 
Uno de los métodos más directos para estimar el valor de k es la proyección de los datos en 
un espacio euclidiano de dos o tres dimensiones, de esta forma una simple inspección podría 
proveernos de información útil sobre el número de grupos. Sin embargo, existen conjuntos de 
datos cuya complejidad hace que esta técnica sea insuficiente para determinar un numero 
óptimo de k. 
1.2. INDICES DE VALIDACIÓN Y REGLAS DE DETENCIÓN 
Para algoritmos que requieren de k como parámetro, una secuencia de estructuras de 
clustering puede ser obtenida al correr el algoritmo múltiples veces desde 𝑘𝑘𝑚𝑚𝑖𝑖𝑛𝑛𝑖𝑖𝑚𝑚𝑚𝑚 hasta 
𝑘𝑘𝑚𝑚𝑚𝑚𝑚𝑚𝑖𝑖𝑚𝑚𝑚𝑚.  
Luego las estructuras calculadas son evaluadas por índices de validación para determinar la 
solución de clustering esperada eligiendo la que posea el mejor índice. Por otro lado, para los 
algoritmos jerárquicos los índices son conocidos como reglas de detención, ya que indican en 
qué nivel el dendrograma se debe cortar. 
Como estándar para evaluar grupos, estos índices combinan la información 
sobre la compacidad de los grupos internos y el aislamiento de los grupos 
externos y son funciones de ciertos factores, como el error cuadrático definido, 
las propiedades geométricas o estadísticas de los datos, el número de objetos 
de datos, la medida de disimilitud o similitud y, por supuesto, el número de 
grupos. (Xu & Wunsch, 2008, pág. 269) 
Algunos de estos índices son: 
• Índice de Caliński y Harabasz 
𝑇𝑇𝑟𝑟(𝑆𝑆𝐵𝐵)
𝐶𝐶𝐶𝐶(𝐾𝐾) = 𝑘𝑘 − 1𝑇𝑇𝑟𝑟(𝑆𝑆 )  𝑊𝑊
𝑐𝑐𝐸𝐸 − 𝑘𝑘
𝑘𝑘
𝑆𝑆𝐵𝐵 =  �𝑐𝑐𝑞𝑞�𝑐𝑐𝑞𝑞 −  𝑐𝑐𝐸𝐸��𝑐𝑐𝑞𝑞 −  𝑐𝑐𝐸𝐸�
𝑇𝑇 
𝑞𝑞=1
31 
 
𝑘𝑘
𝑆𝑆𝑊𝑊 =  � ��𝑥𝑥 −  𝑐𝑐𝑞𝑞��𝑥𝑥 −  𝑐𝑐
𝑇𝑇
𝑞𝑞�  
𝑞𝑞=1 𝑚𝑚𝑥𝑥𝐶𝐶𝑞𝑞
Donde:  
𝐸𝐸: Conjunto de datos. 
 𝑐𝑐𝐸𝐸: número de objetos de E. 
𝑇𝑇𝑟𝑟(𝑆𝑆𝐵𝐵): traza de la matriz de dispersión entre grupos. 
 𝑇𝑇𝑟𝑟(𝑆𝑆𝑊𝑊): traza de la matriz de dispersión dentro del grupo. 
 k: número de clústeres. 
𝐶𝐶𝑞𝑞: Conjunto de datos en el clúster 𝑞𝑞. 
𝑐𝑐𝑞𝑞: Centro del clúster 𝑞𝑞. 
𝑐𝑐𝐸𝐸: Centro de 𝐸𝐸. 
𝑐𝑐𝑞𝑞: número de objetos del clúster 𝑞𝑞. 
El valor de k que maximiza la ecuación 𝐶𝐶𝐶𝐶(𝐾𝐾) sugiere una estimación de k. 
• Índice Davies-Bouldin 
𝑒𝑒 + 𝑒𝑒
𝑅𝑅𝑖𝑖 =  �
𝑖𝑖 𝑖𝑖�  
𝐷𝐷𝑖𝑖𝑖𝑖
𝑘𝑘
𝑅𝑅�
1
= 𝐷𝐷𝐵𝐵(𝐾𝐾) =  �max𝑅𝑅  
𝑘𝑘 𝑖𝑖≠𝑖𝑖 𝑖𝑖
𝑖𝑖=1
Donde:  
𝐷𝐷𝑖𝑖𝑖𝑖: distancia entre centroides de los clústeres i y j. 
𝑒𝑒𝑖𝑖 , 𝑒𝑒𝑖𝑖  : distancia promedio entre los puntos y el centroide de los clústeres i y j. 
32 
Los datos bidimensionales aleatorios producen valores 𝑅𝑅 mínimos de 
aproximadamente 0.6 si se prohíben los grupos de un solo miembro. Un valor 
de 𝑅𝑅 arriba, o en el mismo rango que los mínimos obtenidos para datos 
distribuidos aleatoriamente, indica que una partición particular no separa los 
datos en grupos naturales. (Davies & W., 1979, pág. 225) 
El valor de k que minimiza la ecuación 𝐷𝐷𝐵𝐵(𝐾𝐾) indica el numero potencial de clústeres en los 
datos. 
II.2. ANTECEDENTES DE LA INVESTIGACIÓN 
II.2.1. ANTECEDENTES INTERNACIONALES 
II.2.1.1. ANTECEDENTE N.º 1 
El estudio “ANALYZING AND CLUSTERING NEURAL DATA” realizado en la 
Universidad de Boston - Massachusetts (Estados Unidos) en el año 2015 por Sinha Amit, 
tiene como objetivo: “… ayudar a determinar un patrón subyacente en los datos neuronales a 
través del clustering” (pág. 1). Para lo cual se obtuvieron los datos a través de electrodos de 
electrocorticografía (ECoG), después se tenía que determinar bajo que estrategia se podía 
analizar los datos. 
Debido a que no conocemos los mecanismos internos del comportamiento 
cognitivo, no tenemos una verdad básica, es decir, no hay una línea de base 
con la que comparar los conjuntos de datos empíricos. Por lo tanto, tratamos 
esto como una aplicación de aprendizaje no supervisado. (Sinha, 2015, pág. 5) 
El aprendizaje no supervisado nos permite analizar datos no etiquetados y su objetivo es 
buscar los subgrupos que sean diferentes entre sí, pero similares entre sus registros. 
33 
 
Cuando k [número de clústeres] = 3 o 4, los resultados de la agrupación de k-
means continúan produciendo agrupaciones con una superposición mínima, 
mientras que los resultados de la agrupación espectral no son concluyentes. 
Para los tres casos de agrupación espectral de autoajuste, las agrupaciones 
resultantes parecen superponerse. Al observar los conglomerados en una 
representación bidimensional, existe una superposición notable entre los 
conglomerados en el agrupamiento espectral y el agrupamiento espectral de 
autoajuste en oposición a k-means. (Sinha, 2015, pág. 28) 
Comentario: Cuando se plantea el análisis de cualquier tipo de datos se debe considerar las 
técnicas adecuadas, en este caso se eligió el aprendizaje no supervisado ya que no se pueden 
comparan los datos neuronales con otros. Además, existen múltiples técnicas de aprendizaje 
no supervisado y son capaces de mostrar diferentes resultados por lo cual es importante 
aplicar las técnicas de clustering y preprocesamiento de datos adecuados para los datos que se 
manejan. 
II.2.1.2. ANTECEDENTE N.º 2 
En el estudio “CLUSTERING ANALYSIS OF RESIDENTIAL LOADS” realizado en la 
Universidad Estatal de Kansas - Kansas (Estados Unidos) en el año 2016 por Karimi Kambiz 
se analiza los datos recopilados de 101 casas de Austin TX mediante clustering y se menciona 
que el algoritmo k-means “clasifica todas las casas en uno de los grupos midiendo su 
distancia cuadrada de suma al centro de cada grupo y colocándolas en el grupo con la 
distancia cuadrada de suma más baja” (pág. 11). Es decir, el algoritmo k-means utiliza la 
distancia cuadrada de suma para verificar la similitud de los registros dentro de un conjunto 
de datos. Además, se menciona que para este algoritmo “el número de clústeres debe estar 
predefinido” (pág. 11). 
Previamente en la investigación Karimi Kambiz menciona que: “para elegir el número 
correcto de grupos, la forma más fácil es tener un rango estimado de número de grupos y 
realizar una prueba y error para ver cuántos grupos dan los mejores resultados” (pág. 4). 
34 
Descubrimos que hay tres tipos de usuarios en Austin, TX, según sus patrones 
de uso de electricidad. Un bajo porcentaje de usuarios mantuvo sus clústeres 
durante todo el año, mientras que la mayoría de los usuarios cambiaron su 
clúster una vez. Concluimos de esto que el comportamiento del uso de 
electricidad no se mantiene igual, sino que cambia de una estación a otra. Este 
cambio puede deberse al nivel de ingresos, el uso de los sistemas fotovoltaicos, 
el tipo de sistemas de calefacción y refrigeración, la cantidad de diferentes 
aparatos eléctricos y algunos otros factores. (Karimi, 2016, pág. 26) 
Comentario: El análisis de clúster realizado en esta investigación se llevó a cabo con el uso 
del algoritmo k-means que requiere como parámetro de entrada el conjunto de datos y el 
número de clústeres, este último debe ser calculado antes de aplicar el análisis final, por lo 
tanto, se deben de considerar técnicas que permitan elegir el numero adecuado de clústeres 
que existen dentro del conjunto de datos. 
II.2.1.3. ANTECEDENTE N.º 3 
En el estudio “CLUSTER ANALYSIS OF CHILD HOMICIDE IN SOUTH KOREA” 
realizado en Corea del Sur en el año 2020 por Jung KyuHee, Kim Heesong, Lee Eunsaem, 
Choi Inseok, Lim Hyeyoung, Lee Bongwoo, Choi Byungha, Kim Junmo, Kim Hyejeong y 
Hong Hyeon-Gi se aplica el análisis de clúster usando la distancia Gower a un conjunto de 
datos de 341 casos originales de incidentes de homicidio que involucraban a niños de 0 a 18 
años del 2016 con el objetivo de “identificar la tipología del homicidio infantil en Corea del 
Sur” (Jung, y otros, 2020, pág. 2). 
Avanzando con la investigación los investigadores también encontraron que uno de los 
problemas a enfrentar era el tipo de datos que se encontraron y que se debía utilizar una 
estrategia específica para resolverlo. 
35 
 
Nuestro estudio tuvo como objetivo resolver la cuestión de los datos de 
heterogeneidad y derivar subgrupos significativos en los datos de homicidios 
infantiles de Corea del Sur. Como el conjunto de datos es mixto y contiene no 
solo variables continuas sino también variables binarias, ordinales y 
categóricas, la distancia euclidiana, que trata solo con el tipo numérico de 
variable, no era adecuada; por lo tanto, la distancia de Gower (Gower, 1971), 
diseñada para el tratamiento de datos mixtos, se calculó para medir la 
diferencia. Un valor bajo indica que las dos variables son similares y un valor 
alto indica que las dos son completamente diferentes. (Jung, y otros, 2020, pág. 
6) 
Los resultados mostraron 8 perfiles diferentes dentro del conjunto de datos: 
tortura infantil, filicidio materno, neonaticida, muerte no relacionada con abuso 
previo, filicidio paterno, infanticidio paterno, infanticidio materno y asesinatos 
psicóticos. Dentro de estos casos previamente se habían juzgado 95 como al 
menos sospechosos de homicidio infantil. Además, se llega a la conclusión de 
que “… los perfiles derivados en este estudio pueden ser útiles en la etapa 
inicial de investigación y usarse como una pista para señalar la dirección de 
una investigación adicional” (Jung, y otros, 2020, pág. 14). 
Comentario: Una evaluación de los tipos de datos es necesaria para determinar las estrategias 
y algoritmos que se pueden usar con el conjunto de datos, existen dos opciones: adaptar los 
datos a un rango numérico o utilizar una función de similitud que tenga en cuenta los valores 
no numéricos. 
36 
II.2.2. ANTECEDENTES NACIONALES 
II.2.2.1. ANTECEDENTE Nº 1 
El estudio “IMPLEMENTACIÓN DE UNA HERRAMIENTA DE ANÁLISIS DE RIESGO 
DE CRÉDITO BASADO EN EL MODELO DE RATING DE CRÉDITO, ALGORITMOS 
GENÉTICOS Y CLUSTERING JERÁRQUICO AGLOMERATIVO” realizado en 
Universidad Nacional Mayor de San Marcos - Lima (Perú) en el año 2017 por Ramos 
Martinez Henry Marcos tiene el objetivo de: “Diseñar e implementar una solución, basada en 
la inteligencia artificial, que genere un modelo de clasificación del riesgo de crédito de 
clientes comerciales de acuerdo al modelo de rating de crédito” (pág. 15), también se 
determinan grupos subyacentes para determinar su probabilidad de riesgo, mediante la 
aplicación de clustering. 
En esta investigación se menciona las características de las técnicas de clustering jerárquico. 
Por otro lado, los algoritmos de clustering jerárquico se aproximan al problema 
de clustering a través del desarrollo de una estructura de datos basada en un 
árbol binario, llamada dendrograma. Una vez que el dendrograma está 
construido, se puede escoger automáticamente el número correcto de clústeres 
al dividir al árbol en diferentes niveles para obtener diferentes soluciones de 
clustering, sin necesidad de volver a procesar nuevamente el algoritmo de 
clustering. El clustering jerárquico puede ser logrado a través de dos diferentes 
maneras, llamadas clustering aglomerativo (o de “abajo hacia arriba”) y 
clustering divisivo (o de “arriba hacia abajo”). (Ramos Martinez, 2017, pág. 
31) 
El investigador llego a la conclusión de que las técnicas de inteligencia artificial empleadas 
mostraron un buen resultado para generar un modelo de clasificación, también son capaces de 
ser interpretadas fácilmente por un experto. 
37 
 
Comentario: La implementación de técnicas de inteligencia artificial en un modelo de negocio 
son fructíferos, ya que se automatizan procesos que normalmente desarrolla el recurso 
humano de una entidad haciendo que estos sean más exactos y que se desarrollen en un 
periodo de tiempo más corto. Por otro lado, al aplicar el análisis con un algoritmo de 
clustering jerárquico no es necesario realizar el método de prueba y error para determinar la 
cantidad de patrones en el conjunto de datos. 
II.2.2.2. ANTECEDENTE Nº 2 
El estudio “APLICACIÓN DE LA MINERÍA DE DATOS DISTRIBUIDA USANDO 
ALGORITMO DE CLUSTERING K-MEANS PARA MEJORAR LA CALIDAD DE 
SERVICIOS DE LAS ORGANIZACIONES MODERNAS” realizado en la Universidad 
Mayor de San Marcos - Lima (Perú) en el año 2015 por Mamani Rodríguez Zoraida 
Emperatriz tiene como objetivo “Desarrollar un prototipo que aplique minería de datos 
distribuida mediante el uso de un algoritmo de clustering basado en la técnica k-means” (pág. 
3), donde se concluye fundamentando los beneficios que las organizaciones obtendrían con su 
implementación. 
También se menciona un proceso que es utilizado para el análisis de datos, dentro del cual se 
posiciona las técnicas de clustering. 
El proceso de KDD es el proceso de usar métodos algoritmos de Minería de 
datos para extraer (identificar) lo que es considerado conocimiento de acuerdo 
a las especificaciones de medidas y umbrales, usando la base de datos junto 
con algún pre-procesamiento requerido, sub-muestreo y transformaciones de 
esa base de datos. (Mamani Rodríguez, 2015, págs. 7, 8)  
Comentario: Las bases teóricas del análisis de clustering se encuentran dentro de la minería de 
datos y son parte del proceso KDD, juntando estos se puede analizar todo tipo de datos, y así 
incorporarlo en diferentes rubros o campos de especialidad, hasta el momento se han 
observado sus beneficios en medicina, administración, aprendizaje, entre otros. 
38 
CAPÍTULO III. METODOLOGÍA 
III.1. TIPO DE INVESTIGACIÓN 
El tipo de investigación a realizar en este proyecto será de tipo básica. Una investigación 
básica se define como aquella que, “… está dirigida a un conocimiento más completo a través 
de la comprensión de los aspectos fundamentales de los fenómenos, de los hechos observables 
o de las relaciones que establecen los entes” (CIENCIACTIVA, 2016, pág. 7). 
Además, esta tendrá un enfoque cuantitativo y un nivel descriptivo que, “… únicamente 
pretenden medir o recoger información de manera independiente o conjunta sobre los 
conceptos o las variables a las que se refieren, esto es, su objetivo no es indicar cómo se 
relacionan éstas” (Hernández Sampieri, Fernández Collado, & Baptista Lucio, 2014, pág. 92) 
En esta investigación se busca generar conocimiento más conciso sobre los casos de menores 
desaparecidos en el Perú mediante técnicas de aprendizaje automático no supervisado, en este 
caso se utilizará el clustering debido a que los datos recolectados no están etiquetados.  
III.2. DISEÑO DE LA INVESTIGACIÓN 
El diseño por utilizar en este proyecto de investigación está alineado con el diseño 
experimental, que, según Hernández Sampieri y otros: “se utilizan cuando el investigador 
pretende establecer el posible efecto de una causa que se manipula” (pág. 130). 
En esta investigación se pretende experimentar con los datos recolectados de la página “Te 
Estamos Buscando” variando el número de clústeres que se utiliza como parámetro de entrada 
en los algoritmos de clustering de tipo particional para así comparar los resultados de los 
índices de validación, dicho enfoque se inspira en las técnicas de validación relativa de 
clustering. Esto permitirá determinar el número de patrones que existen de forma natural 
dentro del conjunto de datos. 
III.2.1. FASE 1: RECOLECTAR DATOS 
Se creo una herramienta de software usando el lenguaje de programación Python para extraer 
los datos abiertos de la página web www.teestamosbuscando.pe, esta herramienta realiza el 
proceso de web scraping que detallaremos posteriormente y obtiene a través de la lectura de 
los archivos HTML los datos de los perfiles de menores desaparecidos. 
39 
 
III.2.2. FASE 2: PRE-PROCESAMIENTO DE DATOS 
Para esta fase se continuará utilizando Python y la librería Scikit-Learn para pasar los datos 
obtenidos por un proceso que busca integrar, limpiar, seleccionar y transformar dichos datos. 
Debido a la naturaleza de los datos encontrados en la página se deben aplicar técnicas y 
estrategias que permitan eliminar inconsistencias como valores atípicos, datos nulos y 
duplicados. Además, se debe estandarizar los valores encontrados en los atributos categóricos 
y numéricos, para obtener un mejor análisis de clustering de los registros de datos. 
III.2.2.1. LIMPIEZA DE DATOS 
Dentro del conjunto de datos de menores desaparecidos encontramos atributos de tipo 
nominales y numéricos, por lo cual se debe adoptar una estrategia diferente para cada uno de 
estos dos tipos. 
Primero, los datos numéricos tienen características que nos pueden ayudar en el paso de tratar 
los datos faltantes, para este se utiliza la media de los valores que representa un valor central 
dentro del rango de distribución de los datos. En cuanto a los datos ruidosos, podemos realizar 
un análisis visual de un diagrama de dispersión de todas las dimensiones. 
Segundo, los datos nominales primero deben de ser discretizados dentro de subconjuntos con 
mayor relevancia; para esto se realiza un mapeo de los posibles valores iniciales que existen 
en el conjunto de datos y se realiza la estandarización de dichos valores. Después, los valores 
faltantes o nulos serán reemplazados con la moda que, al igual que la media para los datos 
numéricos, representa el valor central de la distribución de los datos. 
Finalmente obtendremos un conjunto de datos discretizado sin valores faltantes y con una 
cantidad mínima de datos atípicos. 
III.2.2.2. REDUCCIÓN DE DATOS 
Para el paso de reducción de datos utilizaremos dos técnicas: la primera será un análisis visual 
de los datos de tipo numérico en diagrama de dispersión para detectar valores atípicos y así 
evitar la disminución de precisión en el desempeño del algoritmo de clustering y la segunda 
será aplicar el Análisis de Componentes Principales para reducir la dimensionalidad y 
eliminar cualquier ruido presente en el conjunto de datos. 
40 
III.2.2.3. TRANSFORMACIÓN DE DATOS 
El algoritmo seleccionado para aplicar el análisis de clustering es k-means, este algoritmo 
solo trabaja con valores numéricos. Por consiguiente, todos los atributos tienen que ser 
transformados a valores de dicho tipo; por esta razón aplicamos un proceso de transformación 
que incluye dos pasos: 
• Codificación: Consiste en dar un valor numérico a cada etiqueta que existe en 
atributos de tipo nominal y binario. Por lo tanto, codificaremos los valores de los 
atributos binarios (simétricos) a números enteros positivos, sin ningún orden en 
específico; finalmente la codificación de atributos nominales consistirá en representar 
cada posible valor con pares binarios, donde el valor 0 representa la ausencia y el 1 la 
existencia del atributo. 
• Normalización: Esta estrategia de transformación de datos consiste en cambiar los 
valores de los atributos numéricos y encajarlos dentro de un rango predefinido, para 
dar el mismo nivel de significancia a todos los atributos con esto el análisis de 
clustering estará más homogeneizado y separará los patrones tomando en cuenta cada 
atributo por igual. 
III.2.3. FASE 3: ANÁLISIS DE CLUSTERING Y VALIDACIÓN DE 
RESULTADOS 
El procesamiento de los datos obtenidos de la página web consiste en aplicar algoritmos de 
clustering y variar los parámetros de entrada (número de clústeres), para así determinar la 
existencia de grupos significativos en este conjunto de datos. En este caso se utilizará el 
algoritmo k-means, que es uno de los más utilizados en estrategias de aprendizaje no 
supervisado, debido a su eficiencia con conjuntos de datos pequeños. 
Por lo tanto, el flujo para procesar los datos y realizar el análisis de clustering consistirá en: 
• Estimar un rango de números de clústeres 
• Aplicar k-means al conjunto de datos, con los diferentes valores del rango estimado 
41 
 
Además, se aplicarán los índices de Caliński y Harabasz, y Davies-Bouldin a los resultados 
obtenidos de k-means. Para determinar el nivel de eficiencia en la segmentación de patrones 
del conjunto de datos de menores desaparecidos, para esto se buscará el resultado que 
maximice el índice Caliński y Harabasz y el que tenga un valor más cercano a 0 aplicando el 
índice Davies-Bouldin. 
III.2.4. FASE 4: INTERPRETACIÓN DE RESULTADOS 
La última fase del diseño de la investigación consistirá en mostrar las características de los 
patrones o subpoblaciones encontradas dentro del conjunto de datos mediante técnicas 
visuales. 
III.3. POBLACIÓN Y MUESTRA 
III.3.1. POBLACIÓN 
Como población se tomará en cuenta los casos de menores desaparecidos a nivel nacional 
registrados en la página “Te Estamos Buscando” desde su creación, 7 de febrero del 2018, 
hasta el 25 de abril del 2020. 
Tabla 2 
Población de menores desaparecidos y encontrados. 
Estado Número de personas 
Encontrados 2853 
Desaparecidos 4759 
Total 7612 
III.3.2. MUESTRA 
Teniendo en cuenta que los datos de perfiles de menores desaparecidos se encuentran en un 
portal web abierto, la recolección de los datos se pudo realizar sin ningún inconveniente en su 
totalidad con el uso de la herramienta de web scraping. Debido a la accesibilidad de los datos 
y al enfoque del aprendizaje automático no supervisado, el muestreo podría resultar 
innecesario y contraproducente ya que las técnicas de clustering se implementan a través de 
algoritmos matemáticos recursivos y su eficacia para agrupar los datos mejora con relación a 
su cantidad. 
42 
III.4. INSTRUMENTOS 
Para el registro de datos no se utilizó instrumentos convencionales como cuestionarios o 
entrevistas, por el contrario, se elaboró una herramienta de software para recolectar los datos 
de manera automatizada. Esta herramienta está basada en el concepto de web scraping y fue 
implementada con el lenguaje de programación Python (3.7.4). 
El proyecto se encuentra en un repositorio abierto de GitHub 
(https://github.com/royexr/te_estamos_buscando_ws). 
La herramienta se conecta mediante el protocolo HTTP al portal web, para lo cual se hace uso 
del paquete Requests (https://pypi.org/project/requests/) que facilita las solicitudes. También 
se hace uso de la librería Beautiful Soup (https://pypi.org/project/beautifulsoup4/) que ayuda 
a navegar entre paginas HTML o archivos XML para extraer los datos de su contenido. 
III.5. RECOLECCIÓN Y ANÁLISIS DE DATOS 
III.5.1. TÉCNICAS DE RECOLECCIÓN DE DATOS 
Para la recolección de los datos se utilizó la técnica de web scraping que consiste en emular la 
navegación de una persona y acceder a datos de la red mundial (World Wide Web), en 
específico se accederá al portal www.teestamosbuscando.com, cuyos datos son abiertos para 
el público en general. 
III.5.1.1. ESTRUCTURA DE DATOS 
Los perfiles de menores desaparecidos son registrados para crear nota de alertas en la página 
web, dichos perfiles cuentan con múltiples datos como se puede apreciar en la siguiente 
imagen. 
43 
 
Figura 7 
Ejemplo de perfil de menor desaparecido. 
 
Nota. Fuente: (Ministerio del Interior, 2021) 
Para extraer estos datos, se creó una clase en Python con las siguientes características: 
44 
Tabla 3 
Atributos de perfil de menor desaparecido. 
Número Atributo Tipo Descripción 
1 Edad Número Edad del menor desaparecido 
Circunstancias en las que el menor 
2 Circunstancias Cadena 
desapareció 
3 Vestimenta Cadena Vestimenta con la que el menor desapareció 
4 Nombre Cadena Nombre completo del menor 
5 Genero Cadena Genero del menor 
6 Nombre del informante Cadena Nombre de la persona que realizo la denuncia 
Teléfono del 
7 Número Teléfono de la persona que realizo la denuncia 
informante 
8 Departamento Cadena Departamento donde se registró la denuncia 
9 Provincia Cadena Provincia donde se registró la denuncia 
10 Distrito Cadena Distrito donde se registró la denuncia 
11 Cabello Cadena Color de cabello del menor 
12 Boca Cadena Forma o tamaño de la boca del menor 
13 Ojos Cadena Color de ojos del menor 
14 Nariz Cadena Forma de la nariz del menor 
15 Raza Cadena Raza del menor 
16 Estatura Cadena Estatura del menor 
17 Fecha de reporte Cadena Fecha de registro de la denuncia 
18 Fecha de desaparición Cadena Fecha en la que desapareció el o la menor 
19 Url Cadena Url de la nota de alerta 
Para extraer cada atributo de la clase se utilizó cadenas de búsqueda del API web, por lo cual 
se tuvo que crear un archivo de configuración con cada atributo seleccionado a recolectar. 
III.5.1.2. FUNCIONAMIENTO DE LA HERRAMIENTA 
Después de haber registrado las cadenas de búsqueda para cada atributo del perfil del menor, 
se procede a crear algoritmos para iterar entre páginas, explorar toda la página, extraer y 
guardar los datos. 
45 
 
III.5.1.2.1. FUNCIÓN INICIAL 
En esta función se hace referencia al identificador de la página registrada dentro del archivo 
de configuración en formato YAML para pasarla a la función scraper como parámetro. 
Figura 8 
Función inicial 
 
III.5.1.2.2. FUNCIÓN SCRAPER 
Esta función se encarga de extraer las cadenas de búsqueda del API web según al 
identificador de la página, para luego iterar dentro de cada página (según al rango establecido) 
y obtener los enlaces para cada perfil. Este proyecto hace uso de paradigma de programación 
orientada a objetos para plasmar como objetos la página inicial (que contiene los resúmenes 
de los perfiles y esta enumerada) y la página de la persona (donde se detalla los datos 
registrados del menor desaparecido). 
Seguidamente, la función llama a otra que se encarga de obtener los datos del perfil del menor 
desaparecido, lo almacena de forma temporal en un arreglo y finalmente llama a la función 
que se encargará de almacenar los datos.  
46 
Figura 9 
Función Scraper 
 
III.5.1.2.3. FUNCIÓN OBTENER PERFIL 
Esta función se encarga de obtener los datos de los perfiles de menores desaparecidos, para lo 
cual utiliza el objeto que abstrae la estructura de datos de la persona. Finalmente verifica si el 
perfil contiene el campo de nombre para retornarlo o devolver un valor nulo en caso contrario. 
47 
 
Figura 10 
Función obtener perfil 
 
III.5.1.2.4. FUNCIÓN GUARDAR PERFIL 
Esta función recibe como parámetros el arreglo que contiene los perfiles recolectados y el id 
de la página, con estos datos se crea el archivo final a entregar formateando el nombre del 
archivo según la fecha de ejecución del programa. El archivo final se devuelve en formato 
CSV con cabeceras de los atributos del perfil del menor desaparecido. 
48 
Figura 11 
Función guardar perfil 
 
III.5.2. TÉCNICAS DE ANÁLISIS DE DATOS 
Los datos obtenidos serán analizados mediante técnicas de clustering y los resultados serán 
analizados con los índices de validación (índice Caliński y Harabasz e índice Davies-
Bouldin). Utilizaremos gráficos y matrices para mostrar la distribución de los datos y los 
resultados de la validación. 
Previo al análisis se debe realizar pasos de preprocesamiento a los datos recolectados 
inicialmente, como se menciona en el Capítulo I, para obtener conocimiento. Por lo tanto, 
para mejorar la calidad del conocimiento producido primero realizaremos los siguientes 
pasos: 
III.5.2.1. INTEGRACIÓN DE DATOS 
Consiste en combinar múltiples fuentes datos, para el caso de estudio se suscitan dos 
conjuntos de datos: menores desaparecidos y menores encontrados. 
49 
 
III.5.2.2. LIMPIEZA DE DATOS 
Este paso consiste en remover ruido y datos inconsistentes, observando el conjunto de datos 
recolectados podemos mostrar que existe una cierta cantidad de datos faltantes por atributo de 
los perfiles que se muestran en la siguiente tabla. 
Tabla 4 
Número de datos faltantes por atributo. 
Número Atributo Número de datos faltantes 
1 Genero 38 
2 Edad 82 
3 Cabello 191 
4 Boca 358 
5 Ojos 113 
6 Nariz 379 
7 Estatura 275 
8 Raza 1272 
Además, también existen inconsistencias tipográficas en los datos recolectados, por lo cual 
nos encontramos con valores que representan un mismo tipo de raza, pero con diferentes 
nombres asociados, por ejemplo: MEZTIZA, MESTIZA, MESTIZO. Para agrupar 
adecuadamente estos valores, utilizaremos expresiones regulares que buscaran términos 
similares y cambiaran su valor con uno por defecto. 
III.5.2.3. SELECCIÓN DE DATOS 
Este paso consiste en seleccionar los atributos del conjunto de datos que nos serán relevantes 
para la producción de conocimientos. Dentro de nuestro conjunto de datos se seleccionaron 
ocho atributos del perfil los cuales son: edad, estatura, color de ojos, genero, color de cabello, 
nariz, raza. 
Al aplicar los métodos de análisis podremos determinar los patrones (grupos, clústeres) de 
menores desaparecidos según sus características físicas.  
50 
III.5.2.4. TRANSFORMACIÓN DE DATOS 
Este paso consiste en transformar los valores de los perfiles recolectados, para lo cual 
utilizaremos múltiples técnicas. 
1) Codificación: los datos categóricos se deben de transformar en valores numéricos. Por 
ejemplo: el género de los menores varía entre “femenino” y “masculino”, por lo tanto, 
se codificarán como 0 y 1. 
2) Normalización o Escalamiento: los datos ahora son todos numéricos por lo cual es 
necesario normalizarlos dentro de un rango de valores, para que ningún atributo sea 
más relevante que otro dentro del análisis de clustering. 
III.5.2.5. PROCESAMIENTO O ANÁLISIS 
En este paso aplicaremos el análisis de datos mediante clustering, que busca identificar los 
grupos de datos subyacentes de un conjunto de datos. 
51 
 
CAPÍTULO IV. RESULTADOS 
El objetivo del presente estudio fue elaborar una investigación descriptiva que nos permita 
determinar los clústeres (patrones) dentro del conjunto de datos de perfiles de menores 
desaparecidos en el Perú mediante técnicas de aprendizaje no supervisado, para esto se 
elaboró una secuencia de 4 etapas detalladas en el punto III.2. 
IV.1. ETAPA 1: RECOLECTAR DATOS 
Para aplicar los métodos de aprendizaje no supervisado se requiere de una base de datos 
cuyos registros sean significativos para el fin de la investigación, en este caso se extrajo todos 
los datos encontrados en la página web “Te Estamos Buscando” 
(www.teestamosbuscando.com), tanto de perfiles de desaparecidos como de encontrados. 
Al aplicar la herramienta de web scraping, detallada en el párrafo III.5.1. Se obtuvo un 
conjunto de datos con un total de 4759 registros con 19 atributos (4759 x 19) de menores 
desaparecidos y 2853 registros con 19 atributos (2853 x 19) de menores encontrados. Los 
atributos recolectados de los perfiles de menores desaparecidos se pueden observar en la 
Tabla 3. 
IV.2. ETAPA 2: PRE-PROCESAMIENTO DE DATOS 
Los datos recolectados inicialmente contienen diferentes inconsistencias, por lo cual se debe 
seguir los pasos detallados en el punto III.5.2, para asegurar que el resultado del análisis sea el 
más optimo posible. 
IV.2.1. INTEGRACIÓN DE DATOS 
Debido a que se recolectaron datos de dos diferentes orígenes (menores desaparecidos y 
menores encontrados), estos dos conjuntos se deben integrar en uno solo para mejorar la 
precisión del modelo de clustering. 
Por lo tanto, se unifico los dos conjuntos de datos cuyo resultado fue un conjunto de datos con 
7612 registros y 19 atributos (7612 x 19). 
52 
IV.2.2. LIMPIEZA DE DATOS 
IV.2.2.1. ELIMINAR DUPLICADOS 
El primer paso en la limpieza de datos es descartar los datos repetidos o duplicados, en este 
caso podemos filtrar los perfiles por nombres para determinar si hay duplicidad de registros, 
en la Tabla 5 podemos observar algunos de los perfiles duplicados agrupados por nombre. 
Tabla 5 
Perfiles duplicados por nombre. 
Nombre Cantidad 
Lizeth Rodríguez Ataucusi 4 
Dayana Michelle Gallo Postigo 4 
Janet Andrea Bautista Mamani 3 
Alex Wilfredo Farfán Soto 3 
… … 
Al borrar los registros duplicados la cantidad de registros fue reducida hasta 7006. 
IV.2.2.2. FORMATEAR DATOS CATEGORICOS Y NUMÉRICOS 
Luego extraemos la descripción de los datos integrados, obteniendo así la Tabla 6 que 
contiene los tipos de datos de cada atributo registrado en el perfil del menor. 
53 
 
Tabla 6 
Tipos de dato por atributo del conjunto de datos inicial. 
Atributo Tipo de dato 
Edad Número 
Circunstancias Cadena 
Vestimenta Cadena 
Fecha de denuncia Cadena 
Fecha de desaparición Cadena 
Departamento Cadena 
Provincia  Cadena 
Distrito Cadena 
Ojos Cadena 
Género Cadena 
Cabello Cadena 
Estatura Cadena 
Nombre del informante Cadena 
Teléfono del informante Cadena 
Boca Cadena 
Nombre Cadena 
Nariz Cadena 
Raza Cadena 
Url Cadena 
La limpieza de datos comenzó con la eliminación de datos inconsistentes, se mostrarán a 
continuación los cambios hechos por cada atributo que poseía inconsistencias. 
IV.2.2.2.1. EDAD Y ESTATURA 
Dentro de la descripción inicial del conjunto de datos, podemos observar que el campo de 
“Estatura” se clasifica como cadena y no como número. Dentro de los valores inconsistentes 
podemos encontrar: Baja, Mediana, ALTA, 1.50 APROX., 1.40 MTS, 1 METRO, etc. 
El primer paso consistirá en extraer solo los números de todos estos valores y estandarizarlos 
en centímetros. Al aplicar el cambio podremos extraer una descripción numérica del conjunto 
de datos plasmados en la Tabla 7. 
54 
Tabla 7 
Descripción de atributos numéricos (inicial). 
 Edad Estatura (cm) 
Recuento 6928 6731 
Media 13.94 151.20 
Desviación estándar 2.90 16.29 
Valor mínimo 0 32 
Valor máximo 38 193 
Con esta descripción de los atributos numéricos podemos ver en la Figura 12 que existen 
datos en el campo de edad que rebasan el límite máximo para considerar a una persona menor 
de edad. Por lo tanto, realizamos un filtrado simple para eliminar los datos atípicos del 
atributo y da como resultado el contenido de la Tabla 8 y los registros se ubican en la Figura 
13. 
Figura 12 
Diagrama de dispersión (edad x altura) (inicial). 
 
55 
 
Figura 13 
Diagrama de dispersión (edad x altura) (sin valores atípicos). 
 
Tabla 8 
Descripción de valores numéricos (sin valores atípicos). 
 Edad Estatura (cm) 
Recuento 6925 6925 
Media 13.82 150.82 
Desviación estándar 2.83 16.19 
Valor mínimo 0 32 
Valor máximo 18 193 
IV.2.2.2.2. OJOS 
Al extraer los valores del atributo “ojos” del conjunto de datos, se obtuvo los datos de la 
Tabla 9. 
56 
Tabla 9 
Valores del atributo "ojos" (inicial). 
Valor Cantidad 
COLOR NEGRO 1798 
NEGROS 1623 
PARDOS 642 
COLOR  NEGRO 530 
… … 
CHICO CLAROS 1 
MARRON NEGRO ACHINADOS 1 
Observando las diferentes variaciones de valores del atributo se decidió agrupar los valores 
entre un rango más adecuado, el cual contenía los colores: negro, pardo, ámbar, avellana, 
verde, azul y gris. Además, los valores inconsistentes como, por ejemplo: “Pardo y negro”, se 
transformaron en valores nulos. Obteniendo así los registros de la Tabla 10. 
Tabla 10 
Valores del atributo "ojos" (formateados). 
Valor Cantidad 
NEGRO 4294 
PARDO 1910 
GRIS 103 
AMBAR 84 
AVELLANA 25 
VERDE 22 
AZUL 2 
NULO 485 
IV.2.2.2.3. CABELLO 
Al extraer los valores del atributo “cabello” del conjunto de datos, se obtuvo los datos de la 
Tabla 11. 
57 
 
Tabla 11 
Valores del atributo "cabello" (inicial). 
Valor Cantidad 
COLOR NEGRO 2283 
LACIO NEGRO 492 
NEGRO 381 
NEGROS 352 
… … 
Recortado por los costados 1 
CASTAÑO PINTADO DE RUBIO LACIOS 1 
Podemos observar que existen valores que podrían ser agrupados en valores más 
significativos. Por ejemplo: “COLOR NEGRO” y “LACIO NEGRO”, para esta agrupación se 
tomó como parámetro principal el color que contenía cada valor creando así un rango de 
valores que contenía los tipos de cabello: negro, marrón, rubio, rojo, azul, gris y negro. 
Obteniendo así los registros de la Tabla 12. 
Tabla 12 
Valores del atributo "cabello” (formateados). 
Valor Cantidad 
NEGRO 4861 
MARRON 868 
RUBIO 60 
ROJO 29 
GRIS 10 
AZUL 2 
NULO 1095 
IV.2.2.2.4. BOCA 
Al extraer los valores del atributo “boca” del conjunto de datos, se obtuvo los datos de la 
Tabla 13. 
58 
Tabla 13 
Valores del atributo "boca" (inicial). 
Valor Cantidad 
MEDIANA 3863 
PEQUEÑA 880 
NORMAL 522 
GRANDE 400 
… … 
MEDIANA LABIOS CARNOSOS 1 
Mediana con un lunar 1 
Observando las diferentes variaciones de valores del atributo se decidió agrupar los valores 
entre un rango más adecuado, el cual varía entre: pequeña, mediana y grande, ya que el valor 
más predominante es el tamaño. Obteniendo así los registros de la Tabla 14. 
Tabla 14 
Valores del atributo "boca” (formateados). 
Valor Cantidad 
MEDIANA 4255 
PEQUEÑA 1568 
GRANDE 766 
NULO 336 
IV.2.2.2.5. NARIZ 
Al extraer los valores del atributo “nariz” del conjunto de datos, se obtuvo los datos de la 
Tabla 15. 
59 
 
Tabla 15 
Valores del atributo "nariz” (inicial). 
Valor Cantidad 
RECTA 3457 
AGUILEÑA 645 
NORMAL 610 
ANGULAR 335 
… … 
CHICA (ÑATA) 1 
Perfilado 1 
Podemos observar que los valores no son consistentes, en este caso se optó por agrupar los 
valores en: pequeña, mediana y grande. Obteniendo así los registros de Tabla 16. 
Tabla 16 
Valores del atributo "nariz” (formateados). 
Valor Cantidad 
MEDIANA 4896 
GRANDE 859 
PEQUEÑA 809 
NULO 361 
IV.2.2.2.6. RAZA 
Al extraer los valores del atributo “raza” del conjunto de datos, se obtuvo los datos de la 
Tabla 17. 
60 
Tabla 17 
Valores del atributo "raza" (inicial). 
Valor Cantidad 
MESTIZA 4536 
BLANCA 802 
TRIGUEÑA 574 
TRIGEÑA 107 
… … 
Caucasico 1 
MULATA 1 
Observando las diferentes variaciones de valores del atributo se decidió agrupar los valores 
entre un rango más adecuado, el cual varía entre: blanca, mestiza, negra y trigueña. 
Obteniendo así los registros de la Tabla 18. 
Tabla 18 
Valores del atributo "raza” (formateados). 
Valor Cantidad 
MESTIZA 4197 
BLANCA 771 
TRIGUEÑA 767 
NEGRA 22 
NULO 1168 
IV.2.2.2.7. GÉNERO 
Dentro de los valores encontrados en el atributo género no se encontraron inconsistencias, 
pero si una cantidad importante de datos nulos como se observa en la Tabla 19. 
61 
 
Tabla 19 
Valores del atributo "género” (formateados). 
Valor Cantidad 
FEMENINO 5037 
MASCULINO 1857 
NULO 31 
Finalmente obtenemos las estadísticas descriptivas de cada atributo por tipo como se observa 
en la Tabla 20 y la Tabla 21. 
Tabla 20 
Estadísticas descriptivas de atributos binarios (con valores nulos). 
 Género 
Recuento 6894 
Valores únicos 2 
Moda Femenino 
Frecuencia (Moda) 5037 
 
Tabla 21 
Estadísticas descriptivas de atributos nominales (con valores nulos). 
 ojos cabello boca nariz raza 
Recuento 6440 5830 6589 6564 5757 
Valores 
7 6 3 3 4 
únicos 
Moda NEGRO NEGRO MEDIANA MEDIANA MESTIZA 
Frecuencia 
4294 4861 4255 4896 4197 
(Moda) 
IV.2.2.3. LLENANDO VALORES FALTANTES 
El siguiente paso en la limpieza de datos es llenar los datos faltantes. Para esto utilizaremos 
dos estrategias diferentes de acuerdo con el tipo de atributo que se maneje, en este caso 
tenemos: atributos nominales, binarios y numéricos. 
62 
Para llenar los valores faltantes de los atributos nominales y binarios utilizaremos la estrategia 
de replicar el valor más frecuente y para los valores numéricos utilizaremos la estrategia de 
replicar las medias como se indica en el punto II.1.1.1.1.1. La clasificación de los atributos 
por tipo de datos es: 
• Numéricos: edad y altura. 
• Nominales: cabello, ojos, raza, boca y nariz. 
• Binarios (simétrico): género. 
• Únicos: circunstancias, vestimenta, fecha de denuncia, fecha de desaparición, 
departamento, provincia, distrito, nombre del informante, teléfono del informante, 
nombre del desaparecido y url. 
Después de aplicar las técnicas para rellenar los valores faltantes obtenemos los resultados de 
la Tabla 22, la Tabla 23 y la Tabla 24. 
Tabla 22 
Estadísticas descriptivas de atributos numéricos (sin valores nulos). 
 Edad Altura 
Recuento 6925 6925 
Media 13.81 150.81 
Desviación estándar 2.84 16.11 
Valor mínimo 0 50 
Valor máximo 8 193 
Tabla 23 
Estadísticas descriptivas de atributos binarios (sin valores nulos). 
 Género 
Recuento 6925 
Valores únicos 2 
Moda Femenino 
Frecuencia (Moda) 5068 
63 
 
Tabla 24 
Estadísticas descriptivas de atributos nominales (sin valores nulos). 
 ojos cabello boca nariz raza 
Recuento 6925 6925 6925 6925 6925 
Valores 
7 6 3 3 4 
únicos 
Moda NEGRO NEGRO MEDIANA MEDIANA MESTIZA 
Frecuencia 
4779 5956 4591 5257 5365 
(Moda) 
IV.2.3. TRANSFORMACIÓN DE DATOS 
Debido a que los datos procesados pasaran por el algoritmo k-means es necesario asignar una 
representación numérica para cada atributo, la estrategia utilizada para este paso se detalla en 
el punto III.2.2.3. 
El resultado de los pasos de preprocesamiento previos nos permite mostrar todos los atributos 
como valores numéricos como se muestra en la Tabla 25. 
Tabla 25 
Estadísticas descriptivas del conjunto de datos (después del preprocesamiento). 
 Edad Estatura Género 0 1 2 … 150 
Recuento 6925 6925 6925 6925 6925 6925 … 6925 
Media 0.7738 0.7836 0.2682 0.0121 0.0036 0.0003 … 0.0038 
Desviación estándar 0.1590 0.0822 0.4430 0.1095 0.0600 0.0170 … 0.0612 
Valor mínimo 0 0 0 0 0 0 … 0 
Valor máximo 1 1 1 1 1 1 … 1 
IV.2.4. REDUCCIÓN DE DATOS 
Debido a la naturaleza del análisis de clustering debemos utilizar atributos no únicos o cuyo 
rango de variación entre valores no sea muy amplio, estos son: atributos numéricos (altura y 
edad), binarios (género) y nominales (boca, cabello, nariz, ojos, y raza). Por lo tanto, para 
extraer patrones con mayor precisión se tienen que descartar los atributos únicos y aplicar el 
algoritmo de clustering a los atributos numéricos, nominales y binarios. 
64 
Además, se utilizo el algoritmo de Análisis de Componentes Principales (PCA) para reducir 
las dimensiones del conjunto de datos cuyo resultado se muestra en la Tabla 26.  
Tabla 26 
Estadísticas descriptivas del conjunto de datos (redimensionado). 
 PC-1 PC-2 
Recuento 6.925000e+03 6.925000e+03 
Media -1.008900e-16 6.305425e-17 
Desviación estándar 6.492898e-01 6.189703e-01 
Valor mínimo -7.284487e-01 -7.583345e-01 
Valor máximo 1.508745e+00 1.763965e+00 
IV.3. ETAPA 3: ANÁLISIS DE CLUSTERING Y VALIDACIÓN DE RESULTADOS 
Primero, para determinar un rango de número de clústeres (k) y realizar la validación con los 
índices seleccionados se utilizará la técnica visual definida como método de codo (elbow 
method). Esta técnica consiste en utilizar la suma de cuadrados de las distancias de los 
registros hacia el centro de su clúster variando el número de clústeres, con la cual se proyecta 
una curva en un plano bidimensional y los valores que pueden ser considerados como el 
número de clústeres adecuado para el algoritmo se encuentran en la parte central de la curva. 
65 
 
Figura 14 
Método de codo aplicado al conjunto de datos de menores desaparecidos. 
 
Dentro del diagrama plasmado en la Figura 14 podemos observar que los puntos centrales de 
la curva varían entre 3 a 6 clústeres, con este rango de valores aplicamos el algoritmo k-means 
al conjunto de datos y luego utilizamos los índices de validación (Caliński-Harabasz y 
Davies-Bouldin), así obtenemos: 
Tabla 27 
Resultados de índices de validación. 
Número de clústeres (k) Índice de Caliński y Harabasz Índice de Davies-Bouldin 
3 11128.800 0.56246294 
4 16743.733 0.47875169 
5 16614.093 0.62008086 
6 15631.994 0.71642489 
Según los índices de validación el número adecuado de clústeres que se elegirá para aplicar k-
means es aquel que maximice el índice de Caliński y Harabasz y el que sea más próximo a 0 
según el índice de Davies-Bouldin. Por lo tanto, como se observa en la Tabla 27 el número de 
clústeres que cumple con las condiciones de ambos índices de validación es 4. 
66 
IV.4. FASE 4: INTERPRETACIÓN DE RESULTADOS 
IV.4.1. DISTRIBUCIÓN DE CLÚSTERES 
Primero se muestra mediante un diagrama dispersión del conjunto de datos la distribución de 
los clústeres o su separación en un plano bidimensional, para lo cual se utiliza el conjunto de 
datos redimensionado o reducido usando el algoritmo de PCA. Podemos observar en la 
Figura 15 y la Figura 16 la distribución de los registros según los componentes principales 
(PC-1, PC-2). 
Figura 15 
K-means aplicado a los datos de menores desaparecidos (Datos reducidos con PCA). 
 
Nota. Los centroides están marcados con una cruz blanca. 
67 
 
Figura 16 
Diagrama de dispersión (Componente principal 1 x Componente principal 2). 
 
IV.4.1.1. CARACTERÍSTICAS DE LOS CLUSTERES 
Después de la distribución de los registros entre cuatro clústeres, viene el paso de describir 
cada clúster encontrado en el conjunto de datos. Por consiguiente, exponemos los datos de 
cada clúster en las tablas más adelante. 
La distribución de los datos en clústeres nos permite analizar visualmente sus diferencias 
entre las dimensiones (atributos). Por lo tanto, utilizaremos el grafico de caja y bigotes, que 
nos muestra los cuartiles y la amplitud de los valores con respecto a la edad, y el grafico de 
barras, que mostrara la distribución de cantidades de atributo por clúster.
68 
IV.4.1.2. ATRIBUTOS NUMÉRICOS 
IV.4.1.2.1. ALTURA 
Podemos observar en la Figura 17 que los promedios de altura entre los clústeres difieren un poco, teniendo el promedio mas bajo en el clúster 4 
(rojo). 
Figura 17 
Diagrama de cajas (altura x clúster). 
 
69 
 
IV.4.1.2.2. EDAD 
En la Figura 18 por otro lado, podemos observar que las medias de los valores de edad no difieren lo suficiente como para observar detalles en el 
grafico. 
Figura 18 
Diagrama de cajas (edad x clúster). 
 
70 
IV.4.1.3. ATRIBUTOS NOMINALES 
IV.4.1.3.1. COLOR DE OJOS 
Dentro de los clústeres de la Tabla 28 se observa que el atributo color de ojos, tiene una mayoría numérica para el valor “NEGRO” que 
representan casi el 68% de todos los registros y la minoría está en los valores “AVELLANA” y “VERDE” con 0.26% y 0.20% respectivamente. 
Además, podemos observar que el Clúster 3 tiene el promedio de edad mayor y el Clúster 4 tiene el promedio de edad menor. 
Tabla 28 
Resumen de distribución (Color de ojos x Edad). 
Color de 
Clúster 1 Clúster 2 Clúster 3   Clúster 4   
ojos 
 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 
AMBAR 53 0.77% 13.91 17 0.25% 13.47 22 0.32% 14.77 8 0.12% 10 
AVELLANA 11 0.16% 14.09 3 0.04% 14.67 2 0.03% 14.5 2 0.03% 13.5 
AZUL 1 0.01% 14 - 0% - 1 0.01% 14 - 0% - 
GRIS 59 0.85% 13.92 22 0.32% 14.14 29 0.42% 14.93 13 0.19% 14 
NEGRO 2210 31.91% 13.75 1134 16.38% 13.82 868 12.53% 13.75 495 7.15% 13.82 
PARDO 921 13.30% 13.94 466 6.73% 14.02 396 5.72% 13.93 178 2.57% 14.12 
VERDE 4 0.06% 15.25 5 0.07% 14.4 3 0.04% 13.33 2 0.03% 16 
Total 3259 47.06%  1647 23.78%  1321 19.08%  698 10.08%  
71 
 
Figura 19 
Diagrama de cajas (Color de ojos x Edad). 
 
72 
Figura 20 
Diagrama de barras (Color de ojos x Edad). 
 
73 
 
IV.4.1.3.2. COLOR DE CABELLO 
Dentro de los clústeres se observa que, para el color de cabello de los perfiles registrados, el valor “NEGRO” tiene la mayor cantidad de registros 
con casi el 86% y el valor “Azul” tiene la menor cantidad con 0.04%. También se observa que el Clúster 2 tiene el promedio de edad mayor y el 
Clúster 4 el promedio de menor.  
Tabla 29 
Resumen de distribución (Color de cabello x Edad). 
Color de 
Clúster 1 Clúster 2 Clúster 3   Clúster 4   
ojos 
 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 
AZUL 1 0.01% 16 1 0.01% 17 1 0.01% 16 - 0% - 
GRIS 3 0.04% 14 4 0.06% 15.25 3 0.04% 16.33 - 0% - 
MARRON 438 6.32% 13.79 205 2.96% 14.11 165 2.38% 13.92 75 1.08% 13.79 
NEGRO 2777 30.10% 13.81 1423 20.55% 13.84 1135 16.39% 13.82 618 8.92% 13.87 
ROJO 10 0.14% 14.3 3 0.04% 16 8 0.12% 15.125 - - - 
RUBIO 30 0.43% 14.27 11 0.16% 13.18 9 0.13% 13.11 5 0.07% 14.4 
Total 3259 47.06%  1647 23.78%  1321 19.08%  698 10.08%  
74 
Figura 21 
Diagrama de cajas (Color de cabello x Edad). 
 
75 
 
Figura 22 
Diagrama de barras (Color de cabello x Edad). 
 
76 
IV.4.1.3.3. BOCA 
Dentro de los clústeres para el atributo boca se observa que la mayor parte de registros tiene el valor de “MEDIANA” con el 68% del total. 
Además, podemos observar que el Clúster 3 tiene el promedio de edad menor y el Clúster 2 el mayor.  
Tabla 30 
Resumen de distribución (Boca x Edad). 
Color de 
Clúster 1 Clúster 2 Clúster 3   Clúster 4   
ojos 
 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 
GRANDE 343 4.95% 14.45 185 2.47% 14.43 117 2.47% 14 74 1.07% 14 
MEDIANA 2241 32.36% 13.99 1087 15.70% 14.04 924 13.34% 14.05 457 6.60% 13.88 
PEQUEÑA 675 9.75% 12.92 375 5.42% 13.13 280 4.04% 13.1 167 2.41% 13.59 
Total 3259 47.06%  1647 23.78%  1321 19.08%  698 10.08%  
77 
 
Figura 23 
Diagrama de cajas (Boca x Edad). 
 
78 
Figura 24 
Diagrama de barras (Boca x Edad). 
 
79 
 
IV.4.1.3.4. NARIZ 
Dentro de los clústeres podemos observar que la mayor cantidad de registros tiene el valor “MEDIANA” con casi el 76% del total. Además, El 
Clúster 4 tiene el promedio de edad menor y el Clúster 2 el mayor. 
Tabla 31 
Resumen de distribución (Nariz x Edad). 
Color de 
Clúster 1 Clúster 2 Clúster 3   Clúster 4   
ojos 
 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 
GRANDE 441 6.37% 13.93 216 3.12% 14.24 151 2.18% 14.4 94 1.36% 13.95 
MEDIANA 2458 35.49% 13.79 1237 17.86% 13.82 1040 15.02% 13.81 521 7.52% 13.89 
PEQUEÑA 360 5.20% 13.86 194 2.80% 13.84 130 1.88% 13.52 83 1.20% 13.61 
Total 3259 47.06%  1647 23.78%  1321 19.08%  698 10.08%  
80 
Figura 25 
Diagrama de cajas (Nariz x Edad). 
 
81 
 
Figura 26 
Diagrama de barras (Nariz x Edad). 
 
82 
IV.4.1.3.5. RAZA 
Dentro de los clústeres podemos observar que para el atributo “raza” el valor con mayor cantidad es “MESTIZA” con poco más del 78%. 
Además, el Clúster 1 tiene el promedio de edad menor y el Clúster 2 el mayor. 
Tabla 32 
Resumen de distribución (Raza x Edad). 
Color de 
Clúster 1 Clúster 2 Clúster 3   Clúster 4   
ojos 
 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 
BLANCA 365 5.14% 13.68 193 2.79% 13.84 176 2.54% 13.85 61 0.88% 13.66 
MESTIZA 2581 37.17% 13.86 1271 18.35% 13.9 1004 14.50% 13.88 557 8.04% 13.94 
NEGRA 12 0.17% 14.42 4 0.06% 15.25 8 0.12% 14.63 4 0.06% 14.5 
TRIGUEÑA 310 4.48% 13.57 179 2.58% 13.72 133 1.92% 13.57 76 1.10% 13.46 
Total 3259 47.06%  1647 23.78%  1321 19.08%  698 10.08%  
83 
 
Figura 27 
Diagrama de cajas (Raza x Edad). 
 
84 
Figura 28 
Diagrama de barras (Raza x Edad). 
 
85 
 
IV.4.1.3.6. GÉNERO 
Podemos observar que la cantidad de niñas desaparecidas es casi 3 veces la cantidad de niños desaparecidos. También se ve que el Clúster 1 tiene 
el promedio de edad más bajo y el Clúster 4 el más alto. 
Tabla 33 
Resumen de distribución (Género x Edad). 
Color de ojos Clúster 1 Clúster 2 Clúster 3 Clúster 4 
 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 𝒏𝒏 % 𝝁𝝁 
FEMENINO 2357 34.04 14.23 1177 17% 14.25 971 14.02% 14.2 526 7.60% 14.09 
MASCULINO 902 13.03% 12.73 470 6.79% 12.96 350 5.05% 12.87 172 2.48% 13.17 
Total 3259 47.06%  1647 23.78%  1321 19.08%  698 10.08%  
86 
Figura 29 
Diagrama de cajas (Género x Edad). 
 
87 
 
Figura 30 
Diagrama de barras (Género x Edad). 
 
88 
CAPÍTULO V. DISCUSIÓN 
En la presente investigación se realizó un estudio descriptivo que aplica técnicas de 
aprendizaje no supervisado para detectar patrones dentro del conjunto de datos de perfiles de 
menores desaparecidos a nivel nacional. La hipótesis planteada se valida con el criterio 
relativo detallado en el CAPÍTULO II, que propone comparar los resultados aplicados con un 
mismo algoritmo (k-means) variando los parámetros de entrada (número de clústeres). 
K-means hace uso de la distancia euclidiana como medida de similitud entre registros, debido 
a esto los atributos deben de ser codificados a una representación numérica; la codificación 
resuelve las necesidades del algoritmo y permite que el proceso de clustering se termine en un 
tiempo corto, pero no representa adecuadamente al conjunto de datos. 
El antecedente “ANALYZING AND CLUSTERING NEURAL DATA” se explora un 
conjunto de datos neurales obtenidos mediante Electrocorticografía, para esto fue necesario 
pasar los datos mediante filtros (Butterworth, Chebyshev) que servían como métodos de 
preprocesamiento de datos. Después se aplica un rango de valores aceptados para seleccionar 
los picos de variación asociados a la actividad cerebral. En la presente investigación se 
utilizaron otros métodos como la codificación binaria y el proceso KDD para ajustar los 
valores nominales a numéricos; si bien cada investigación requiere de técnicas de 
preprocesamiento exclusivos para el conjunto de datos debido a sus características, se observa 
que la aplicación de estas técnicas forma parte del análisis de clustering con el fin de obtener 
conocimiento. 
Además, se aplicaron tres diferentes algoritmos de clustering para contrastar los resultados y 
determinar el algoritmo con mejores respuestas y que mantuviera los clústeres bien diferidos. 
Aunque en esta investigación no se realiza una comparación entre algoritmos, se optó por el 
algoritmo k-means que es el más usado en la literatura, debido a su velocidad para formar los 
clústeres y su eficacia para impedir la sobre posición de registros. 
El antecedente “CLUSTERING ANALYSIS OF RESIDENTIAL LOADS”, se realiza un 
análisis de clustering de 101 casas en Austin, Texas para observar el comportamiento de los 
consumidores según temporadas (verano, invierno, otoño y primavera) y contrastarlo con los 
datos de precios del mercado. Desde el comienzo de la investigación se tenía previsto la 
búsqueda de 3 clústeres debido a que en estudios previos se había encontrado 2, pero el 
investigador decidió agregar un clúster para disminuir la varianza de los subconjuntos. 
89 
 
Por lo tanto, no se utilizó ninguna técnica para determinar un numero adecuado de clústeres 
para proceder con la aplicación del algoritmo; al contrario del caso de esta investigación que 
no tiene un precedente en el campo de personas desaparecidas y se ve la necesidad de plantear 
un modelo de validación que permita determinar el valor adecuado mediante el uso de los 
índices y el método del codo. 
El antecedente “CLÚSTER ANALYSIS OF CHILD HOMICIDE IN SOUTH KOREA” se 
analizan 341 casos de homicidio de niños en las edades entre 0 – 18 años, los datos 
registrados por caso tenían una variedad amplia de tipos; por lo cual se propuso utilizar la 
distancia Gower para calcular la similitud además del algoritmo PAM (Partición alrededor de 
medoides) para segmentar los clústeres adecuadamente, pero se menciona que esta estrategia 
solo es recomendada para conjuntos de baja numerosidad. La combinación de estas técnicas 
no se usa en esta investigación debido a la cantidad de registros (7612 perfiles) del conjunto 
de datos, debido al costo que representan estas técnicas en conjunto se optó por preprocesar 
los datos y usar el algoritmo k-means. 
El antecedente “IMPLEMENTACIÓN DE UNA HERRAMIENTA DE ANÁLISIS DE 
RIESGO DE CRÉDITO BASADO EN EL MODELO DE RATING DE CRÉDITO, 
ALGORITMOS GENÉTICOS Y CLUSTERING JERÁRQUICO AGLOMERATIVO” 
propone una solución que combina dos estrategias de inteligencia artificial y demuestra un 
poder de predicción mayor comparado al modelo de regresión logística, además se menciona 
que debido a la metodología un experto humano puede interpretar fácilmente los resultados. 
En esta investigación se propone el uso del análisis de clustering para segmentar patrones del 
conjunto de datos, debido a que el resultado requiere ser interpretado por un humano experto. 
El antecedente “APLICACIÓN DE LA MINERÍA DE DATOS DISTRIBUIDA USANDO 
ALGORITMO DE CLUSTERING K-MEANS PARA MEJORAR LA CALIDAD DE 
SERVICIOS DE LAS ORGANIZACIONES MODERNAS” se propone un algoritmo de 
clustering distribuido adaptable a la entidad judicial y concluye que la estrategia apoya en el 
cumplimiento de los objetivos de la entidad, lo cual mejora la calidad de sus servicios. Los 
pasos en el flujo de la propuesta no tienen la necesidad de adaptarse a las entidades 
involucradas en la gestión de los procesos que combaten la desaparición de menores, puesto 
que el estudio solo se enfoca en determinar y describir los patrones de los perfiles del 
conjunto de datos. 
90 
Sin embargo, los resultados de los patrones encontrados tienen la capacidad de mejorar los 
procesos para disminuir la desaparición de menores con ayuda de expertos. 
91 
 
GLOSARIO 
1. API: Interfaz para programación de aplicaciones utilizado para acceder a 
funcionalidades de plataformas especificas. 
2. Binning: Estrategia de suavizado de datos que propone separar los registros según a 
una agrupación definida. 
3. Clustering: Técnica de aprendizaje no supervisado que busca agrupar registros de 
datos según a la distancia entre uno y otro. 
4. Comma-Separated Values (CSV): Formato de archivo que separa valores usando 
comas. 
5. Dendrograma: Representación grafica que mejora la visualización de subgrupos 
utilizando un esquema de árbol. 
6. Distancia Euclidiana: Distancia entre dos puntos en el espacio euclídeo o espacio 
bidimensional. 
7. Método del codo: Método grafico utilizado para visualizar números de clústeres 
asociados al costo de formación de clústeres. 
8. Error cuadrático medio: resultado del calculo del promedio entre valores esperados 
y valores obtenidos, en un proceso de estimación. 
9. HyperText Markup Language (HTML): Lenguaje de marcado de hipertexto 
utilizado comunmente para la elaboración de páginas web. 
10. HyperText Transfer Protocol (HTTP): Protocolo de transferencia de hipertexto, 
utilizado en la capa de aplicación para transferir documentos de hipermedia.  
11. Knowledge Discovery from Data (KDD): Proceso que propone tecnicas que ayudan 
a la formacion de conocimiento usando conjuntos de datos. 
12. K means: Algoritmo de clustering que utiliza las medias como puntos de referencia 
para segmentar un conjunto de datos, hace uso de la distancia euclidiana y el proceso 
es constituido por múltiples iteraciones. 
92 
13. Machine Learning: Campo de la inteligencia artificial que busca entrenar algoritmos 
mediante la formación de conocimiento obtenido de los datos. 
14. Python: Lenguaje de programación multiparadigma que se enfoca en la legibilidad 
del código. 
15. Web scraping: Técnica que simula la interacción de un usuario con la web para 
recolectar datos. 
93 
 
CONCLUSIONES 
• El proceso aplicado a los datos que aplico los pasos del proceso KDD y el análisis de 
clustering con el uso del algoritmo k-means mostro como resultado adecuado 4 
patrones como se puede observar en el párrafo IV.3  
• La herramienta de software diseñada y desarrollada para recolectar de datos de la 
página “Te Estamos Buscando” se basó en el concepto de web scraping, la 
herramienta permitió obtener los datos de perfiles de más de 7000 menores 
desaparecidos a nivel nacional. 
• Dentro del conjunto de datos se registran múltiples atributos mencionados en la Tabla 
7, de los cuales se seleccionaron 8 (altura, boca, color de cabello, color de ojos, edad, 
genero, nariz y raza) debido a que representan más a los individuos y conllevara a 
realizar una agrupación de acuerdo con sus características físicas. 
• En el preprocesamiento de datos nos encontramos con diferentes pasos, estos son: 
integración, limpieza, transformación y reducción de datos. Debido a que el conjunto 
de datos posee atributos mixtos (binarios, nominales y numéricos) y el algoritmo de 
clustering seleccionado (k-means) calcula la similitud entre registros con la distancia 
euclidiana se requieren de valores numéricos para todos los atributos. Por lo tanto, en 
el proceso de transformación de datos se en codificaron los atributos no numéricos a 
representaciones binarias sintéticas lo que permitió adecuar los valores de las 
características y mejorar la eficiencia del algoritmo. 
• Determinar el número adecuado de clústeres para procesar los datos puede ser una 
tarea muy complicada, debido a que pueden existir muchos factores que alteren los 
resultados. Por lo tanto, para validar la cantidad de clústeres que demuestra una 
segmentación eficiente del conjunto de datos, se utilizaron dos índices (Caliński y 
Harabasz, y Davies-Bouldin) los cuales demostraron tener mejores resultados cuando 
el número de clústeres es 4 cuyos resultados están en el punto 3 del capítulo IV. 
 
 
 
94 
RECOMENDACIONES 
• Los registros de menores desaparecidos almacenan más propiedades a parte de las 
relacionadas al perfil de la persona, como las circunstancias de la desaparición o la 
vestimenta con la que fue visto o vista la última vez, por lo cual se recomienda una 
investigación más profunda tomando en consideración estos. 
• La estrategia para detectar los patrones consistió en codificar los datos categóricos 
para utilizarlos con el algoritmo k-means lo cual nos dio los resultados detallados en el 
Capítulo V. Por otro lado, existen múltiples algoritmos de clustering y técnicas de 
procesamiento de datos, por lo cual se recomienda investigar estrategias con 
algoritmos y flujos de procesamiento más a fin a los tipos de datos mixtos. 
• Esta investigación muestra los diferentes patrones que existen dentro del conjunto de 
datos con respecto a los perfiles de los menores, estos resultados pueden ser 
interpretados por expertos en campos de sociología, antropología, entre otros para 
determinar las razones de la desaparición de menores en el Perú. 
 
95 
 
REFERENCIAS 
Aggarwal, C. C., & Reddy, C. K. (2014). Data Clustering. Algorithms and applications. Chapman&Hall/CRC 
Data mining and Knowledge Discovery series. 
Alpaydin, E. (2009). Introduction. En E. Alpaydin, Introduction to machine learning (págs. 1-20). MIT Press. 
Amini, M.-R., & Usunier, N. (2015). Learning with Partially Labeled and Interdependent Data. Springer. 
Amnistía Internacional . (14 de Septiembre de 2021). Publicaciones - Las mujeres que nos faltan. Obtenido de 
Amnistía Internacional : https://amnistia.org.pe/publicaciones/las-mujeres-que-nos-faltan/ 
Berndtsson, M., Hansson, J., Olsson, B., & Lundell, B. (2007). Thesis Projects: a guide for students in computer 
science and information systems. Springer Science & Business Media. 
CIENCIACTIVA. (13 de Mayo de 2016). CIENCIACTIVA. Obtenido de CIENCIACTIVA: 
http://www.cienciactiva.gob.pe/images/bases/basica-y-aplicada/E041-2016-02-Bases-Integradas-del-
Concurso.pdf 
Davies, D. L., & W., B. D. (1979). A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and 
Machine Intelligence, 224-227. 
El Peruano, Diario Oficial. (14 de Mayo de 2011). Normas legales. El Peruano, págs. 442436-442438. 
Han, J., Kamber, M., & Pei, J. (2011). Data Mining. Concepts and Techniques. Morgan Kaufmann. 
Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2014). Metodología de la Investigación. 
Mexico: McGraw-Hill. 
Internacional, A. (14 de Septiembre de 2021). Publicaciones - Las mujeres que nos faltan. Obtenido de Amnistía 
Internacional: https://amnistia.org.pe/publicaciones/las-mujeres-que-nos-faltan/ 
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning with 
Application in R. New York: Springer. 
Jung, K., Kim, H., Lee, E., Choi, I., Lim, H., Lee, B., . . . Hong, H.-G. (2020). Cluster analysis of child homicide 
in South Korea. Child Abuse & Neglect, 104322. 
Karimi, K. (22 de Abril de 2016). Clustering Analysis of Residential Loads. Manhattan, Kansas, Estados Unidos. 
Kotu, V., & Deshpande, B. (2018). Clustering. En V. Kotu, & B. Deshpande, Data Science: Concepts and 
Practice (págs. 221-261). Morgan Kaufmann. 
Kramer, O. (2013). Dimensionality Reduction with Unsupervised Nearest Neighbors. Berlin: Springer. 
Mamani Rodríguez, Z. E. (2015). Aplicación de la mineria de datos distribuida usando algoritmo de clustering k-
means para mejorar la calidad de servicios de las organizaciones modernas. Lima, Lima, Perú. 
Ministerio del Interior. (10 de 08 de 2021). Desaparecidos en Perú. Obtenido de Desaparecidos en Perú: 
https://desaparecidosenperu.policia.gob.pe/ 
Müller, A. C., & Guido, S. (2016). Introduction to Machine Learning with Python. Boston: O'Reilly Media. 
Ramos Martinez, H. M. (2017). Implementación de una herramienta de análisis de riesgo de crédito basado en el 
modelo de rating de crédito, algoritmos genéticos y clustering jerárquico aglomerativo. Lima, Lima, 
Perú. 
RENIPED, M. d. (9 de Octubre de 2021). Registro Nacional de Información de Personas Desaparecidas. 
Obtenido de Desaparecidos en Perú: https://desaparecidosenperu.policia.gob.pe/Desaparecidos/reniped 
Sinha, A. (23 de Diciembre de 2015). Analyzing and clustering neural data. Boston, Massachusetts, Estados 
Unidos. 
96 
Skiena, S. S. (2017). The Data Science Design Manual. Springer. 
Theodoridis, S., & Koutroumbas, K. (2009). Pattern Recognition - Fourth Edition.  
Wittek, P. (2014). Unsupervised learning. En P. Wittek, Quantum machine learning: what quantum computing 
means to data mining (págs. 57-62). Academic Press. 
Witten, I. H., Frank, E., & Hall, M. A. (2005). Data Mining Practical Machine Learning Tools and Techniques. 
Morgan Kaufman. 
Xu, R., & Wunsch, D. C. (2008). Clustering. John Wiley & Sons. 
 
97 
 
ANEXOS 
ANEXO A: DESCRIPCIÓN DE DATOS - CLÚSTER 1 
Tabla 34 
Descripción de atributos numéricos - Clúster 1. 
 Edad Altura (cm) 
Recuento 3259 3259 
Media 13.82 151.01 
Desviación estándar 2.87 16.49 
Mínimo 0 45 
Máximo 18 193 
Tabla 35 
Descripción de atributos nominales - Clúster 1. 
Color de Color de 
 Género Boca Nariz Raza 
ojos cabello 
Recuento 3259 3259 3259 3259 3259 3259 
Valores 
2 7 6 3 3 4 
únicos 
Mayoría Femenino NEGRO NEGRO MEDIANA MEDIANA MESTIZA 
Frecuencia 2357 2210 2777 2241 2458 2581 
Tabla 36 
Distribución de valores de género - Clúster 1. 
Valor Cantidad 
Femenino 2357 
Masculino 902 
98 
Tabla 37 
Distribución de valores de color de ojos - Clúster 1. 
Valor Cantidad 
NEGRO 2210 
PARDO 921 
GRIS 59 
AMBAR 53 
AVELLANA 11 
VERDE 4 
AZUL 1 
Tabla 38 
Distribución de valores de color de cabello - Clúster 1. 
Valor Cantidad 
NEGRO 2777 
MARRON 438 
RUBIO 30 
ROJO 10 
GRIS 3 
AZUL 1 
Tabla 39 
Distribución de valores de boca - Clúster 1. 
Valor Cantidad 
MEDIANA 2241 
PEQUEÑA 675 
GRANDE 343 
Tabla 40 
Distribución de valores de nariz - Clúster 1. 
Valor Cantidad 
MEDIANA 2458 
GRANDE 441 
PEQUEÑA 360 
99 
 
Tabla 41 
Distribución de valores de raza - Clúster 1. 
Valor Cantidad 
MESTIZA 2581 
BLANCA 356 
TRIGUEÑA 310 
NEGRA 12 
ANEXO B: DESCRIPCIÓN DE DATOS – CLÚSTER 2 
Tabla 42  
Descripción de atributos numéricos - Clúster 2. 
 Edad Altura 
Recuento 1647 1647 
Media 13.88 151.50 
Desviación estándar 2.74 14.99 
Mínimo 0 50 
Máximo 18 185 
Tabla 43 
Descripción de atributos nominales - Clúster 2. 
Color de Color de 
 Género Boca Nariz Raza 
ojos cabello 
Recuento 1647 1647 1647 1647 1647 1647 
Valores 
2 6 6 3 3 4 
únicos 
Mayoría Femenino NEGRO MEGRO MEDIANA MEDIANA MESTIZA 
Frecuencia 1177 1134 1423 1087 1237 1271 
100 
Tabla 44 
Distribución de valores de género - Clúster 2. 
Valor Cantidad 
Femenino 1177 
Masculino 470 
Tabla 45 
Distribución de valores de color de ojos - Clúster 2. 
Valor Cantidad 
NEGRO 1134 
PARDO 466 
GRIS 22 
AMBAR 17 
VERDE 5 
AVELLANA 3 
Tabla 46 
Distribución de valores de color de cabello - Clúster 2. 
Valor Cantidad 
NEGRO 1423 
MARRON 205 
RUBIO 11 
GRIS 4 
ROJO 3 
AZUL 1 
Tabla 47 
Distribución de valores de boca - Clúster 2. 
Valor Cantidad 
MEDIANA 1087 
PEQUEÑA 375 
GRANDE 185 
101 
 
Tabla 48 
Distribución de valores de nariz - Clúster 2. 
Valor Cantidad 
MEDIANA 1237 
GRANDE 216 
PEQUEÑA 194 
Tabla 49 
Distribución de valores de raza - Clúster 2. 
Valor Cantidad 
MESTIZA 1271 
BLANCA 193 
TRIGUEÑA 179 
NEGRA 4 
ANEXO C: DESCRIPCIÓN DE DATOS – CLÚSTER 3 
Tabla 50 
Descripción de atributos numéricos - Clúster 3. 
 Edad Altura 
Recuento 1321 1321 
Media 13.85 150.95 
Desviación estándar 2.89 15.87 
Mínimo 0 50 
Máximo 17 185 
Tabla 51 
Descripción de atributos nominales - Clúster 3. 
Color de Color de 
 Género Boca Nariz Raza 
ojos cabello 
Recuento 1321 1321 1321 1321 1321 1321 
Valores 
2 7 6 3 3 4 
únicos 
Mayoría Femenino NEGRO MEGRO MEDIANA MEDIANA MESTIZA 
Frecuencia 971 868 1135 924 1040 1004 
102 
Tabla 52 
Distribución de valores de género - Clúster 3. 
Valor Cantidad 
Femenino 971 
Masculino 350 
Tabla 53 
Distribución de valores de color de ojos - Clúster 3. 
Valor Cantidad 
NEGRO 868 
PARDO 396 
GRIS 29 
AMBAR 22 
VERDE 3 
AVELLANA 2 
AZUL 1 
Tabla 54 
Distribución de valores de color de cabello - Clúster 3. 
Valor Cantidad 
NEGRO 1135 
MARRON 165 
RUBIO 9 
ROJO 8 
GRIS 3 
AZUL 1 
Tabla 55 
Distribución de valores de boca - Clúster 3. 
Valor Cantidad 
MEDIANA 924 
PEQUEÑA 280 
GRANDE 117 
103 
 
Tabla 56 
Distribución de valores de nariz - Clúster 3. 
Valor Cantidad 
MEDIANA 1040 
GRANDE 151 
PEQUEÑA 130 
Tabla 57 
Distribución de valores de raza - Clúster 3. 
Valor Cantidad 
MESTIZA 1004 
BLANCA 176 
TRIGUEÑA 133 
NEGRA 8 
ANEXO D: DESCRIPCIÓN DE DATOS – CLÚSTER 4 
Tabla 58 
Descripción de atributos numéricos - Clúster 4. 
 Edad Altura 
Recuento 698 698 
Media 13.87 150.54 
Desviación estándar 2.84 14.76 
Mínimo 1 60 
Máximo 17 184 
Tabla 59 
Descripción de atributos nominales - Clúster 4. 
Color de Color de 
 Género Boca Nariz Raza 
ojos cabello 
Recuento 698 698 698 698 698 698 
Valores 
2 6 3 3 3 4 
únicos 
Mayoría Femenino NEGRO NEGRO MEDIANA MEDIANA MESTIZA 
Frecuencia 526 495 618 457 521 557 
104 
Tabla 60 
Distribución de valores de género - Clúster 4. 
Valor Cantidad 
Femenino 526 
Masculino 172 
Tabla 61 
Distribución de valores de color de ojos - Clúster 4. 
Valor Cantidad 
NEGRO 495 
PARDO 178 
GRIS 13 
AMBAR 8 
AVELLANA 2 
VERDE 2 
Tabla 62 
Distribución de valores de color de cabello - Clúster 4. 
Valor Cantidad 
NEGRO 618 
MARRON 75 
RUBIO 5 
Tabla 63 
Distribución de valores de boca - Clúster 4. 
Valor Cantidad 
MEDIANA 457 
PEQUEÑA 167 
GRANDE 74 
105 
 
Tabla 64 
Distribución de valores de nariz - Clúster 4. 
Valor Cantidad 
MEDIANA 521 
GRANDE 94 
PEQUEÑA 83 
Tabla 65 
Distribución de valores de raza - Clúster 4. 
Valor Cantidad 
MESTIZA 557 
TRIGUEÑA 76 
BLANCA 61 
NEGRA 4 
 
106