INTRODUCCIÓN

Para realizar el análisis, se utilizó una base de datos con las respuestas de la encuesta nacional sobre el consumo de drogas y salud o NSDUH por sus siglas en inglés (National Survey on Drug Use and Health) de Estados Unidos.

Dicha base de datos se puede consultar en la siguiente liga:

https://data.world/balexturner/drug-use-employment-work-absence-income-race-education/workspace/file?filename=NSDUH%20Workforce%20Adults.csv&fbclid=IwAR0QbL-SdeXS4yg_Jx5SsWBYSJgU87_kg4rBrjzJQPISJuhmL_NLm7_DTfg#_=_

La base de datos, en su mayoría, presenta variables booleanas, dónde 0 representa “No” y 1 representa “Si”, hay algunos casos dónde la variable toma valores discretos entre 1 y 10, a continuación se explican los valores discretos:

Ingresos personales (Por año en dólares) 
1.- Menos de $10,000
2.- $10,000 - $19,999
3.- $20,000 - $29,999
4.- $30,000 - $39,999
5.- $40,000 - $49,999
6.- $50,000 - $74,999
7.- Más de $75,000
Ingresos familiares (Por año en dólares) 
1.- Menos de $10,000
2.- $10,000 - $19,999
3.- $20,000 - $29,999
4.- $30,000 - $39,999
5.- $40,000 - $49,999
6.- $50,000 - $74,999
7.- Más de $75,000
Estado laboral
1.- Tiempo completo
2.- Medio tiempo
3.- Desempleado
Raza
1.- Blanco
2.- Afroamericano
3.- Nativo americano
4.- Hawaiano
5.- Asiático
6.- Mestizo
7.- Hispano
Grado de estudios (Mayores de edad)
1.- Menor a preparatoria
2.- Solo preparatoria
3.- Carrera inconclusa
4.- Carrera terminada
Sexo
1.- Hombre
2.- Mujer

K-medoids con uso de CLARA, (clustering Large Applications)

Definición de K-medoids

K-medoids es un algoritmo de agrupamiento relacionado al algoritmo k-means.

Tanto el k-medoids como el k-means son algoritmos que trabajan con particiones (dividiendo el conjunto de datos en grupos) y ambos intentan minimizar la distancia entre puntos que se añadirían a un grupo y otro punto designado como el centro de ese grupo. En contraste con el algoritmo k-means, k-medoids escoge datapoints como centros y trabaja con una métrica arbitraria de distancias entre datapoints en vez de usar la norma l2. En 1987 se propuso este método para el trabajo con la norma l1 y otras distancias.

K-medoid es una técnica clásica de particionado de grupos que divide los datos conformados por n objetos en k grupos (con k conocido de antemano).

Es más robusto ante el ruido y a partes aisladas que k-means porque minimiza una suma de disimilaridades (entre pares de puntos) en vez de una suma de distancias euclidianas cuadradas.

Un medoid puede ser definido como el objeto de un grupo cuya disimilaridad media a todos los objetos en el grupo es mínima. Es el punto ubicado más hacia el centro en todo el grupo.

Definición de CLARA

En lugar de encontrar medoids para todo el conjunto de datos, Clara considera una pequeña muestra de los datos con un tamaño fijo y aplica el algoritmo PAM para generar un conjunto óptimo de medoids para la muestra. La calidad de los medoids resultantes se mide por la disimilitud promedio entre cada objeto en todo el conjunto de datos y el medoide de su agrupación, definida como la función de costo.

CLARA permite los procesos de muestreo y agrupación un número preespecificado de veces para minimizar el sesgo de muestreo. Los resultados finales de la agrupación corresponden con el conjunto de medoides con el costo mínimo.

Desarrollo

Para poder analizar cuantos clusters es necesario tomar en cuenta, deberemos analizar la diferencia de cuadrados tanto para la diferencia entre los elementos entre un grupo a otros, como la diferencia de cada elemento dentro de los grupos.

Para seleccionar el número óptimo de grupos, utilizamos el método “elbow”.

Diferencia entre un grupo y otro

Como conclusión de la gráfica, podemos observar que el número optimo de grupos a seleccionar es 6, esto lo confirmaremos con el análisis de diferencia de cuadrados entre cada elemento del grupo

Diferencias entre elementos de cada grupo

Patrones en los 6 grupos

Podemos representar dichos patrones en el diagrama de división de clusters

Dónde cada clusters representa:

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6
Marihuana Si Si Si Si Si Si
Cocaína Si No Si No No No
Crack No No No No No No
Heroína No No No No No No
Alucinógenos Si No Si No No No
Inhalantes No No Si No No No
Metanfetamínas No No Si No No No
Calmantes de dolor No No Si No No No
Tranquilizantes No No Si No No No
Estimulantes No No No No No No
Sedantes No No No No No No
Cantidad de drogas diferentes probadas por persona 3 1 7 1 1 1
Ingresos personales Entre $50,000 - $74,999 Entre $20,000 - $29,999 Entre $10,000 - $19,999 Entre $40,000 - $49,999 Entre $10,000 - $19,999 Entre $10,000 - $19,999
Ingresos familiares Más de $75,000 Entre $50,000 - $74,999 Entre $30,000 - $39,999 Entre $50,000 - $74,999 Entre $30,000 - $39,999 Entre $10,000 - $19,999
Estado de empleo Tiempo completo Tiempo completo Tiempo completo Tiempo completo Medio tiempo Medio tiempo
Raza predominante Raza blanca Raza afroamericana Raza blanca Raza blanca Raza mestiza Raza afroamericana
Máximo grado de estudios alcanzados Carrera inconclusa Carrera inconclusa Solo preparatoria Carrera inconclusa Solo preparatoria Solo preparatoria
Sexo predominante Hombres Mujeres Hombres Hombres Hombres Mujeres

Características generales

Cluster 1

Personas que alguna vez han usado marihuana, cocaína, alucinógenos y/o sedantes, solo han probado 3 de entre dichas drogas, nivel socioeconómico medio-alto con un trabajo de tiempo completo. Personas de raza blanca, carrera incompleta y generalmente son hombres.

Cluster 2

Personas que únicamente han usado marihuana, ingresos personales medios pero familiares medio-altos. Trabajo de tiempo completo, de raza afroamericana y con carrera inconclusa. Generalmente son mujeres.

Cluster 3

Personas con uso de marihuana, cocaína, alucinógenos, inhalantes, metanfetaminas, calmantes de dolor, tranquilizantes y/o sedantes. Ingresos personales de clase baja, familiares de clase media. Cuentan con trabajo de tiempo completo, son personas de raza blanca con estudios hasta la preparatoria. Por lo general son hombres.

Cluster 4

Personas que únicamente han usado marihuana, con ingresos personales y familiares medio-altos. Con trabajo de tiempo completo, de raza blanca, carrera inconclusa. Por lo general son hombres.

Cluster 5

Personas que únicamente han usado marihuana, con ingresos personales de clase baja y familiares de clase media-baja. Con empleo de medio tiempo, raza mestiza, estudios solo hasta la preparatoria. Por lo general son hombres.

Cluster 6

Personas que únicamente han usado marihuana, ingresos personales y familiares de clase baja, empleo de medio tiempo y de raza afroamericana. Estudios solo hasta la preparatoria. Por lo general son mujeres.

Conclusiones

De los datos presentados anteriormente, podemos deducir lo siguiente:

1.- Todas las personas que han consumido drogas, presentan uso de marihuana, siendo ésta la más popular entre personas trabajadoras.

2.- El crack, heroína y estimulantes no son populares entre personas trabajadoras.

3.- Lo común entre trabajadores que han probado mas de una droga, es usar marihuana, cocaína, y alucinógenos.

4.- Las personas de raza blanca con ingresos personales bajos tienden a probar mayor cantidad de drogas.

5.- Los ingresos familiares no mantienen una correlación con la cantidad de diferentes drogas probadas.

6.- Los trabajadores de raza blanca tienden a probar mayor cantidad de drogas.

7.- Las mujeres trabajadoras de raza afroamericana son mas propensas al uso de marihuana que los hombres trabajadores de raza afroamericana.