UNIDAD 6
Imaginemos que tenemos un eje que representa el rango de valores que puede tomar una variable que nos interesa estudiar (por ejemplo, la altura de una persona).
¿Qué tipo de variable es? ¿Cuál es su rango de variación?
Claramente, la variable altura no puede tomar valores negativos y, como cota superior, podemos tomar 240 cm (conociendo que hay personas que han llegado a tales alturas, believe it or not!).
Ahora supongamos que tomamos una persona de una población y le medimos su altura, resultando en 170 cm. Representamos dicho valor en el eje con un punto.
Medimos la altura de otra persona de la misma población y obtenemos un valor de 190 cm. Representamos también dicho valor en el eje de variación de nuestra variable bajo estudio.
Como contamos con la información de la altura un grupo de 100 personas de la misma población, continuamos representando los valores observados sobre el eje. Estos valores conforman nuestra… ¿nuestra qué?
¿Qué herramientas conocemos para describir y resumir la información contenida en este conjunto de datos de una variable?
Ambos gráficos tienen dos ejes, pero… ¿cuántas variables tenemos representadas en ambos casos?
En Introducción a la Inteligencia Artificial definimos a un modelo como:
“Una representación simplificada de la realidad que constituye una herramienta para responder interrogantes y resolver problemas.”
¿Qué modelo podemos generar con la información que disponemos si quisiéramos predecir la altura de una próxima persona a medir?
Nuestro modelo puede estar dado por el promedio o media aritmética de la altura de las personas que componen el dataset:
Si tuviéramos otra variable que nos aporte información, ¿cómo la podríamos usar para mejorar nuestro modelo?
Supongamos que esa primera altura que medimos se la medimos a una persona llamada Juan, a la que, además, le registramos el peso (83.3 kg).
Persona | Altura_cm | Peso_kg |
---|---|---|
Juan | 170 | 83.3 |
¿Cómo integramos esa información en el gráfico?
Agregamos el eje horizontal en este sistema de coordenadas cartesianas XY, en el que vamos a representar la variable peso. Suponemos, además, un rango de variación en el que se podría mover esa variable.
Ahora el punto verde representa tanto la altura como el peso de Juan.
Persona | Altura_cm | Peso_kg |
---|---|---|
Juan | 170 | 83.3 |
Como registramos los pesos de todas las personas a las que les habíamos medido la altura, podemos representar todos los datos en este gráfico para explorar las características de la relación entre ambas variables.
Nuestro modelo original sigue siendo válido. Representamos la altura promedio de las personas de la muestra como un valor constante a través de todos los pesos registrados.
Sin embargo, viendo que existe asociación entre la altura y el peso de las personas, podríamos incorporar la información de la variable peso a nuestro modelo para apoyarnos en ella y predecir de una forma más ajustada la variable altura.
En términos matemáticos, el primer modelo que planteamos para predecir la altura de las personas de esta población tendría la siguiente forma:
Por otra parte, el segundo modelo propuesto, que incorpora la información de la variable peso, tendría la siguiente forma matemática:
En esta Unidad, veremos cómo utilizar la información de una muestra para obtener un valor para el coeficiente b y así arribar a una ecuación matemática que modele la relación que existe entre la altura y el peso en las personas de la población.
Bajo el nombre de análisis de regresión se engloba al conjunto de herramientas que permiten explicar (modelar matemáticamente) el comportamiento de una variable (variable respuesta (Y)) a partir de la información proporcionada por una o más variables (variable/s explicativa/s (X’s)).