Análisis calificaciones CSV
Los datos representan las calificaciones de los alumnos en varias pruebas. Los datos contienen 26 entradas (filas) y 6 columnas:
Alumno
: Esta columna contiene el identificador del estudiante. Hay 26 entradas únicas, lo que significa que no hay duplicados.MIC1
,FOR1
,DOS
,MC
yLab1
: Estas columnas contienen las calificaciones de los alumnos en diferentes pruebas.
Las calificaciones están en formato de texto (tipo de datos "objeto"), lo que indica que probablemente necesitaremos convertirlas a formato numérico para el análisis.
Además, no hay valores nulos (faltantes) en ninguna de las columnas, por lo que no necesitaremos imputar o eliminar valores nulos.
Ahora procederé a convertir las calificaciones a formato numérico. Si hay algún problema en este paso (por ejemplo, caracteres no numéricos), manejaré esos casos en particular. En caso de error en la conversión, reemplazaré la calificación problemática con la media de las calificaciones de la prueba correspondiente.
Las calificaciones se han convertido correctamente a formato numérico. Aquí están las primeras filas del conjunto de datos después de la conversión:
Alumno | MIC1 | FOR1 | DOS | MC | Lab1 |
---|---|---|---|---|---|
Alu1 | 6.50 | 1.00 | 1.00 | 1.00 | 10.00 |
Alu2 | 6.75 | 1.00 | 7.00 | 1.00 | 10.00 |
Alu3 | 4.00 | 1.00 | 4.00 | 1.00 | 2.00 |
Alu4 | 1.00 | 9.00 | 1.00 | 1.00 | 8.00 |
Alu5 | 7.00 | 3.00 | 9.00 | 9.50 | 10.00 |
Ahora los datos están listos para cualquier análisis adicional que necesitemos realizar.
Aquí están las estadísticas resumidas para cada prueba:
Prueba | Media | Mediana | Desviación estándar |
---|---|---|---|
MIC1 | 4.59 | 5.50 | 2.89 |
FOR1 | 2.60 | 1.50 | 2.44 |
DOS | 4.69 | 5.00 | 3.26 |
MC | 4.10 | 5.00 | 2.97 |
Lab1 | 6.50 | 8.00 | 3.47 |
Y los resultados del test de Shapiro-Wilk:
Prueba | W | p-value |
---|---|---|
MIC1 | 0.85 | 0.0016 |
FOR1 | 0.70 | 0.0000 |
DOS | 0.84 | 0.0007 |
MC | 0.84 | 0.0011 |
Lab1 | 0.76 | 0.0000 |
Para la prueba de Levene, obtuvimos un estadístico de 2.08 con un valor p de 0.088.
Interpretación de los resultados:
En términos de rendimiento promedio, la prueba de laboratorio (Lab1) es la que tiene la puntuación media más alta, mientras que la prueba FOR1 es la que tiene la puntuación media más baja. Esto podría indicar que los estudiantes encuentran la prueba Lab1 más fácil o más accesible, mientras que la prueba FOR1 parece ser más desafiante.
En cuanto a la variabilidad de las puntuaciones (medida por la desviación estándar), la prueba DOS es la que tiene la mayor variabilidad, mientras que la prueba FOR1 tiene la menor. Esto significa que las puntuaciones en la prueba DOS están más dispersas, lo que podría indicar una mayor variabilidad en la comprensión de los estudiantes de los contenidos de esa prueba.
Los resultados del test de Shapiro-Wilk sugieren que ninguna de las distribuciones de las puntuaciones de las pruebas sigue una distribución normal, ya que todos los valores p son significativos (menores que 0.05). Esto podría indicar que las pruebas no están bien diseñadas para diferenciar entre diferentes niveles de habilidad entre los estudiantes, o que hay factores no académicos que están influyendo en las puntuaciones.
Finalmente, la prueba de Levene sugiere que las varianzas de las puntuaciones de las pruebas no son significativamente diferentes (valor p mayor que 0.05). Esto significa que la variabilidad en las puntuaciones de las pruebas es aproximadamente la misma en todas las pruebas.
En términos de práctica docente, estos resultados sugieren que podría ser útil revisar la prueba FOR1 para entender por qué los estudiantes están teniendo dificultades con ella. También podría ser útil revisar la prueba DOS para entender por qué hay tanta variabilidad en las puntuaciones. Además, podría ser útil revisar todas las pruebas para entender por qué las distribuciones de las puntuaciones no son normales. Esto podría implicar la revisión de las preguntas de la prueba, la claridad de las instrucciones, o incluso el contenido del curso que se está evaluando.
Dado que las distribuciones de las puntuaciones de las pruebas no siguen una distribución normal (según el test de Shapiro-Wilk), y las varianzas de las puntuaciones son aproximadamente iguales (según el test de Levene), el test más apropiado para comprobar si las medias entre las pruebas son iguales o no sería el test de Kruskal-Wallis, que es una versión no paramétrica del ANOVA de un factor.
Si encontramos que las medias no son iguales, entonces podemos aplicar la prueba post-hoc de Dunn para identificar cuáles de las medias son distintas. La prueba de Dunn es una prueba no paramétrica que se utiliza para comparaciones múltiples después de un test de Kruskal-Wallis.
Primero, realizaremos el test de Kruskal-Wallis. Si el resultado es significativo, procederemos con la prueba post-hoc de Dunn.
Lo siento, parece que he intentado utilizar una biblioteca (scikit_posthocs
) que no está disponible en este entorno. Mi error. En este caso, deberíamos seguir utilizando SciPy para realizar las pruebas post-hoc. Sin embargo, SciPy no tiene una implementación directa para la prueba post-hoc de Dunn.
Para evitar esta limitación, podemos utilizar la prueba de Mann-Whitney U para realizar las comparaciones por pares. Esta prueba es una alternativa no paramétrica a la prueba t de Student para muestras independientes y se puede utilizar en lugar de la prueba de Dunn. La prueba de Mann-Whitney U también es apropiada para usar en este caso, ya que estamos trabajando con distribuciones no normales.
Por lo tanto, procederé a realizar el test de Kruskal-Wallis y, si el resultado es significativo, procederé a realizar las pruebas de Mann-Whitney U por pares para todas las combinaciones posibles de pruebas.
Los resultados del test de Kruskal-Wallis indican que existen diferencias significativas entre las medias de las pruebas (valor p = 0.0002). Esto significa que al menos una de las medias de las pruebas es significativamente diferente de las demás.
Para identificar cuáles de las pruebas difieren entre sí, hemos realizado la prueba de Mann-Whitney U para cada par de pruebas. Los resultados de estas pruebas son los siguientes:
Pareja | Valor p |
---|---|
MIC1 vs FOR1 | 0.052 |
MIC1 vs DOS | 0.721 |
MIC1 vs MC | 0.456 |
MIC1 vs Lab1 | 0.007 |
FOR1 vs DOS | 0.065 |
FOR1 vs MC | 0.180 |
FOR1 vs Lab1 | < 0.001 |
DOS vs MC | 0.465 |
DOS vs Lab1 | 0.009 |
MC vs Lab1 | 0.002 |
Los valores p menores que 0.05 indican que las medias de las pruebas correspondientes son significativamente diferentes. Por lo tanto, las pruebas que son significativamente diferentes son:
- MIC1 vs Lab1
- FOR1 vs Lab1
- DOS vs Lab1
- MC vs Lab1
Esto indica que las calificaciones de la prueba de laboratorio (Lab1) son significativamente diferentes de las calificaciones de todas las demás pruebas. Específicamente, las calificaciones de Lab1 son más altas en promedio que las de las demás pruebas, como se vio anteriormente en el análisis descriptivo.
En términos prácticos, esto podría sugerir que la prueba de laboratorio (Lab1) es de alguna manera más fácil para los estudiantes, o tal vez evalúa un conjunto de habilidades que los estudiantes dominan mejor que los evaluados por las otras pruebas. Como resultado, podría ser útil que los profesores revisen la prueba de laboratorio y consideren si las habilidades que se evalúan en esa prueba se están enseñando de manera más efectiva que las habilidades evaluadas en las otras pruebas. Además, podría ser útil revisar las otras pruebas para ver si podrían ser mejoradas de alguna manera, quizás haciéndolas más parecidas a la prueba de laboratorio, si eso es apropiado.
Los resultados de las pruebas estadísticas que hemos realizado indican que las calificaciones promedio de las pruebas no son todas iguales. En particular, las calificaciones de la prueba de laboratorio (Lab1) son, en promedio, significativamente más altas que las de las demás pruebas.
Para los profesores, esto podría sugerir varias cosas. Por un lado, puede indicar que los estudiantes encuentran la prueba de laboratorio (Lab1) más fácil que las otras pruebas. Esto podría ser porque el formato de la prueba de laboratorio se adapta mejor a los estilos de aprendizaje de los estudiantes, o porque los contenidos que se evalúan en la prueba de laboratorio se enseñan de una manera que los estudiantes comprenden mejor.
Por otro lado, también podría sugerir que las otras pruebas (MIC1, FOR1, DOS, MC) son más desafiantes para los estudiantes. Esto podría ser debido a la forma en que se plantean las preguntas, a la dificultad de los contenidos que se evalúan, o a que los métodos de enseñanza no son tan efectivos para estos contenidos.
Las medias de las pruebas, que representan las calificaciones promedio de los estudiantes en cada prueba, son las siguientes:
- MIC1: 4.59
- FOR1: 2.60
- DOS: 4.69
- MC: 4.10
- Lab1: 6.50
Estos valores respaldan la interpretación anterior: las calificaciones promedio en la prueba Lab1 son más altas que en las demás pruebas, lo que sugiere que los estudiantes pueden estar desempeñándose mejor en esta prueba.
En términos de mejorar la práctica docente, estos hallazgos sugieren varias posibles acciones. Por un lado, los profesores podrían revisar las pruebas MIC1, FOR1, DOS y MC para identificar posibles áreas de mejora. Esto podría implicar la revisión de las preguntas de la prueba, la claridad de las instrucciones, o incluso el contenido del curso que se está evaluando.
Por otro lado, también podría ser útil revisar la enseñanza de los contenidos que se evalúan en estas pruebas. Si los estudiantes están teniendo dificultades con estos contenidos, podría ser útil revisar cómo se están enseñando estos temas en el curso. Tal vez se podrían incorporar más actividades prácticas, como las que se utilizan en la prueba de laboratorio, o tal vez se podrían utilizar diferentes métodos de enseñanza para estos temas.
Finalmente, podría ser útil revisar la prueba de laboratorio para identificar las características que la hacen más accesible o más fácil para los estudiantes. Si es posible, estas características podrían incorporarse a las otras pruebas para mejorar el rendimiento de los estudiantes en ellas.
Aquí está la tabla con la variabilidad explicada por cada componente y la variabilidad acumulada:
Componente | Varianza explicada | Varianza acumulada |
---|---|---|
1 | 0.504 | 0.504 |
2 | 0.266 | 0.771 |
3 | 0.133 | 0.903 |
4 | 0.097 | 1.000 |
5 | 0.000 | 1.000 |
El gráfico muestra las puntuaciones de las pruebas en los dos primeros componentes principales del PCA. Cada punto en el gráfico representa una prueba, y las distancias entre los puntos reflejan las relaciones entre las pruebas según las calificaciones de los estudiantes.
La interpretación de este gráfico y la tabla anterior puede ser de la siguiente manera:
El primer componente principal (PC1) explica el 50.4% de la variabilidad en las calificaciones de las pruebas, y el segundo componente principal (PC2) explica un 26.6% adicional. Juntos, estos dos componentes explican aproximadamente el 77.1% de la variabilidad.
En el gráfico, podemos ver que la prueba de laboratorio (Lab1) está situada lejos de las demás pruebas en el eje del PC1. Esto indica que las calificaciones de la prueba de laboratorio tienen una variabilidad que es distinta a la de las demás pruebas. Este resultado es consistente con nuestros análisis anteriores, que mostraron que las calificaciones de la prueba de laboratorio son significativamente más altas en promedio que las de las demás pruebas.
Las pruebas MIC1, DOS y MC están bastante cerca en el gráfico, lo que sugiere que las calificaciones de estas pruebas están relacionadas de alguna manera. Es posible que estas pruebas evalúen habilidades similares o contenidos relacionados, lo que llevaría a los estudiantes a obtener calificaciones similares en estas pruebas.
La prueba FOR1 está situada entre las pruebas MIC1, DOS, MC y la prueba de laboratorio (Lab1), lo que sugiere que las calificaciones de esta prueba están moderadamente relacionadas con las de las demás pruebas.
En términos de práctica docente, estos resultados sugieren que podría ser útil revisar la prueba de laboratorio y las pruebas MIC1, DOS y MC para entender por qué las calificaciones de los estudiantes en estas pruebas son tan diferentes. Por ejemplo, si la prueba de laboratorio está evaluando habilidades prácticas que se enseñan de manera efectiva en el curso, podría ser útil incorporar más actividades prácticas en las otras pruebas o en la enseñanza de los contenidos que evalúan estas pruebas.
Por otro lado, si las pruebas MIC1, DOS y MC están evaluando contenidos relacionados, podría ser útil revisar cómo se enseñan estos contenidos para asegurar que los estudiantes están comprendiendo bien estos temas. Tal vez se podrían utilizar diferentes métodos de enseñanza o se podrían incorporar más oportunidades para la práctica y la revisión de estos contenidos.
Finalmente, los resultados también sugieren que la prueba FOR1 puede necesitar ser revisada, ya que las calificaciones de esta prueba están moderadamente relacionadas con las de las demás pruebas. Esto podría indicar que esta prueba está evaluando habilidades o contenidos que no están tan bien integrados con el resto del curso.
Informe de conclusiones finales
Conclusiones sobre medias, medianas, desviación estándar y normalidad de las muestras:
- Las calificaciones promedio (medias) varían entre las pruebas, con Lab1 teniendo la puntuación media más alta y FOR1 la más baja. Esto sugiere que los estudiantes pueden estar encontrando Lab1 más fácil y FOR1 más difícil.
- La variabilidad en las calificaciones (desviación estándar) también varía entre las pruebas. La prueba DOS tiene la mayor variabilidad, lo que podría indicar una variabilidad en la comprensión de los estudiantes de este contenido.
- Los resultados de la prueba de normalidad de Shapiro-Wilk sugieren que las calificaciones en las pruebas no siguen una distribución normal. Esto puede indicar que las pruebas podrían no estar bien diseñadas para diferenciar entre diferentes niveles de habilidad de los estudiantes.
Conclusiones sobre la igualdad de medias de las pruebas:
- Las pruebas estadísticas indican que las calificaciones promedio entre las pruebas no son todas iguales. En particular, las calificaciones de Lab1 son significativamente diferentes (más altas) que las de las otras pruebas.
Conclusiones sobre PCA:
- El PCA muestra que Lab1 se distingue de las demás pruebas en términos de las calificaciones de los estudiantes. Por otro lado, las pruebas MIC1, DOS y MC están bastante cerca entre sí, lo que sugiere que las calificaciones de estas pruebas están relacionadas.
- La prueba FOR1 se sitúa entre las otras pruebas, lo que sugiere que sus calificaciones están moderadamente relacionadas con las de las otras pruebas.
Recomendaciones prácticas para el profesor:
- Revisar la prueba FOR1 para entender por qué los estudiantes están teniendo dificultades con ella. ¿Podría ser que las preguntas sean demasiado difíciles, o que el contenido de la prueba no esté claro?
- Revisar la prueba DOS para entender por qué hay tanta variabilidad en las puntuaciones. ¿Están los estudiantes interpretando las preguntas de manera consistente? ¿Hay algún contenido en la prueba que algunos estudiantes encuentren particularmente difícil o fácil?
- Considerar la revisión de todas las pruebas para entender por qué las distribuciones de las puntuaciones no son normales. Esto podría implicar la revisión de las preguntas de la prueba, la claridad de las instrucciones, o incluso el contenido del curso que se está evaluando.
- Dado que Lab1 parece ser más efectiva en términos de calificaciones de los estudiantes, podría ser útil revisar esta prueba y considerar si las habilidades que se evalúan en ella se están enseñando de manera más efectiva que las habilidades evaluadas en las otras pruebas.
Otros aspectos útiles para la mejora de la práctica docente:
- El profesor podría considerar la posibilidad de pedir feedback a los estudiantes sobre las pruebas y sobre el contenido del curso. Los estudiantes podrían tener perspectivas útiles sobre lo que encuentran difícil o confuso, lo que podría ayudar al profesor a mejorar las pruebas y la enseñanza.
- Dado que las pruebas parecen estar midiendo diferentes habilidades y contenidos, el profesor podría considerar la posibilidad de proporcionar más apoyo o recursos a los estudiantes para los contenidos que se evalúan en las pruebas que los estudiantes encuentran más difíciles.
Autoevaluación del docente:
- Basándose en los resultados de las pruebas y en las conclusiones de este informe, parece que el docente está haciendo un buen trabajo en la enseñanza de algunos contenidos (como los que se evalúan en la prueba Lab1), pero puede haber espacio para mejorar en la enseñanza de otros contenidos (como los que se evalúan en las pruebas FOR1 y DOS).
- El profesor podría considerar la posibilidad de utilizar diferentes métodos de enseñanza o de evaluación para estos contenidos, con el objetivo de ayudar a los estudiantes a mejorar su comprensión y rendimiento.
- El hecho de que las calificaciones en las pruebas no sigan una distribución normal también sugiere que podría haber factores no académicos que estén influyendo en las calificaciones de los estudiantes. Esto podría ser un área para una mayor reflexión y autoevaluación por parte del profesor.
- En general, este análisis sugiere que el profesor está comprometido con la mejora continua de su enseñanza y está dispuesto a utilizar los datos de las pruebas para informar esta mejora.
He creado y guardado el informe en un archivo DOCX. Aquí está el archivo que solicitaste: Informe_Analisis_Pruebas.docx.