sábado, 20 de septiembre de 2014

Tamaño óptimo

A raíz de una interesante discusión, motivada por el reciente referendum independentista de Escocia, y deseando por mi parte dar un enfoque novedoso a las cuestiones separatistas en general, surgió la cuestión de si el tamaño de un país influía en la prosperidad de sus ciudadanos.

Mi tesis era que sí, que lo hacía, y que había una correlación negativa entre tamaño del país y riqueza de los ciudadanos de tal país. Tal tesis no pasaba de una mera intuición en el momento de formularla, y no tengo ningún problema en admitirlo.

Previsiblemente, la discusión se enquistó en una enumeración de ejemplos anecdóticos, tanto por mi parte como para el defensor de la antítesis, sin que la cuestión pudiera decidirse de manera satisfactoria.

Llegado a este punto, imaginé que en el vasto universo de Internet alguien habría elaborado y publicado la relación mencionada, y con esa esperanza me lanzé a la búsqueda de tal información. La cuestión es que no la encontré. No voy a decir que no exista, lo cual me extrañaría mucho, sólo que perdí la paciencia quizá demasiado rápido. Al fin y al cabo, no iba a romper el tabú sagrado de no ver jamás la segunda página de resultados de Google.

Así que lo segundo que pensé es que podia establecer la relación yo mismo: los datos que quería comparar están disponibles para todo el mundo (no me calenté mucho la cabeza: fui directo a Wikipedia), y solo era cuestión de encontrarlos, copiarlos a una hoja de Excel, y torturarlos hasta que dijeran lo que yo quería que dijeran.

Mis oxidadas habilidades Excelísticas me hicieron lamentar no haber roto el tabú arriba mencionado, pero una aplicación irracional de de la Falacia del Costo Hundido me permitió llegar hasta el final, tras un gran número de ciclos de CPU (Copy, Paste, Undo)

Entrando ya en materia, he modelizado el tamaño de un país como la población que posee, y la prosperidad individual media como el PIB per capita (PIB / población). Con estos datos he elaborado la siguiente gráfica (X=población, Y=PIB per capita), en la cual me he tomado la libertad de señalar algunos puntos extremos y/o peculiares:





A simple vista ya podemos apreciar algunas características, como por ejemplo que hay muchos más países pequeños que grandes, y también más países pobres que ricos, lo cual se aprecia en el apelotonamiento de puntos cerca del origen de coordenadas.

Entornando los ojos con fe podemos apreciar ya cierta correlación negativa: Todos los países con PIBs per capita muy grandes son muy pequeños, y los dos gigantes (India y China) tienen PIBs per capita pequeños. Con las honrosas excepciones de Japón y EEUU, ningún país con más de 85 millones de habitates posee un PIB per capita superior a la media (16.466$)

Por supuesto, no os he traído aquí para apelar a vuestra fe, sino para mostraros la fría matemática.  Agregamos una linea de tendencia logarítmica (la curva que mejor se ajusta a la nube de datos, a mi entender) y podemos ver su línea claramente descendente:


He probado también con tendencias lineales, polinomiales y exponenciales, y todas poseen también pendiente negativa, aunque con un peor ajuste a los datos.

La tendencia es clara: de media, los países muy pequeños tienen PIBs per capita altos, que disminuyen rápidamente al aumentar un poco la población, y levemente tras aumentar aún más ésta. Podemos incluso afirmar con razonable seguridad que si quieres un país superrico, debes ser superpequeño (sin que la inversa sea necesariamente cierta)

¿Es este resultado un artificio matemático? Para comprobar que no lo es, he elaborado otra gráfica, en la que he sustituido el PIB per capita de los paises por un valor aleatorio centrado en la media, con valores entre 0 y dos veces la media. Éste sería el aspecto de la gráfica si la población de los países no influyera en absoluto en el PIB per capita:






Como se puede comprobar, la nube de puntos no se parece a la obtenida con los datos originales, y la tendencia logarítmica tiene una pendiente muy próxima a cero, que es lo que se espera cuando los dos conjuntos de datos no poseen correlación.

Finalmente ¿he demostrado algo, en el sentido matemático-absoluto? No. He calculado el coeficiente de correlación de ambas series y el valor ofrecido no es escandalosamente diferente al coeficiente de correlación de los datos aleatorios que muestro en la última imagen. Eso sí, el coeficiente de correlación de Pearson muestra las relaciones lineales entre variables, y yo he concluido previamente que los datos no se ajustan bien a una tendencia lineal, sino logarítmica.

Así pues, es posible aún que, con los mismos datos que he usado yo (éstos y estos otros), otra persona con mayores conocimientos pueda demostrar de verdad que tal correlación existe, o que no existe, de manera concluyente. Por desgracia yo ya he llegado con esto al límite de mis modestas capacidades estadísticas, y aunque la prueba final esté fuera de mi alcance, sí puedo concluir que los datos son compatibles con una correlación negativa y por tanto con mi tesis.

3 comentarios:

torque dijo...

Muy bien hecha la grafica Ausensi, solo comentar que me parece que la muestra tiene los rabos demasiado gordos. Prueba a cribar el 3-5% de los valores extremos y probablemente te de una correlacion plana.

Calamar Gigante dijo...

Lo he probado. Puedes eliminar china y la india, y los países tipo mónaco, luxemburgo, etc., y sigue existiendo la misma relación inversa, y la misma forma general en la nube de puntos.

Anónimo dijo...

BRAVO CALAMAR MUY CURRADO ESE TRABAJO TUYO ESTADISTICO.
A MI SE MEVA UN POCO DE COORDENADAS PERO ENTIENDO QUE TE LO CURRASTE.


GRACIAS UN SALUDO.

P.D.
SOY EL ANONIMO QUE LE GUSTÓ TU NOMBRE DE CALAMAR EN EL COMENTARIO DEL BOE.(TUYO DE ARTURO ).