Body mass index: not (only) a matter of income

This entry is part of some findings in the exercises for the MOOC
Data visualization for storytelling and discovery. 

Excess body weight is an important risk factor for mortality and morbidity from cardiovascular diseases, diabetes, cancers, and musculoskeletal disorders. It’s the cause of nearly 3 million annual deaths worldwide. Several studies on diferent levels show that adiposity, as measured by body mass index (BMI, calculated as weight in kg over m2), has increased in recent decades in many populations although BMI seems to have been stable or even decreased in some groups.

Body mass index is a value derived from the mass (weight) and height of an individual. The BMI is defined as the body mass divided by the square of the body height. 

Commonly accepted BMI ranges are: underweight: under 18.5 kg/m2, normal weight: 18.5 to 25, overweight: 25 to 30, obese: over 30. Also the World Health Organization adheres to this classification.  So those are the line highlights in the Y axis of the graphs, to see which and how many countries fall into them. 

Correlation with income

I used the Gapminder 2012 dataset to explore a bit. 

The mean BMI provides a simplified measure of the comparative weight of populations on a country by country basis, and my first hunch was to compare the mean BMI of each country with the income per person to see how it correlates. Maps didn’t show well the gradients, as the countries that have higher values of BMI are scarce and very small in dimensions in the map. So I used a scatterplot to see countries and also continents by colour, and see the trends. 

Graph 1: BMI vs. income (men)


All the countries with an obese population (Nauru, Tonga, Samoa, Palau, French Polynesia) belong to the Polynesia, which may pose the question for an ethnic condition or if it’s considered necessary to use diferent parameters when studying this area. 


Graph 2: BMI vs. income (women)


Considering the data for women, there are more countries with more BMI index for women, and also more into the category of obesity. Besides the mentioned before, there’s Kiribati, Marshall Islands for the Polynesian, Egypt and Kuwait for Middle East and Puerto Rico, Saint Kitts and Nevis, and Bermuda for America. This may have some kind of relationship with climate and hot temperatures (?), as all of them are located near the parallel of latitud 0. Some possible clue to keep on searching. 

We can see that the BMI and the income doesn’t show a clear correlation in general, so I thought it would be better to filter and to analyse by continent and country more in detail. 

There are several studies stating that wealth doesn’t have a direct correlation with BMI as there are more factors involved. “The persistence and emergence of income gradients suggests that disparities in weight status are only partially attributable to poverty and that efforts aimed at reducing disparities need to consider a much broader array of contributing factors”, as per Wang and Lauderdale.

In a study of the University of North Carolina, they employed microdata from China to provide the theoretical examination and empirical test of the predictions linking household income to adult BMI using both cross-sectional and panel data analysis. The results show an inverted-U shaped relationship between BMI and family income. Additional income brings about higher BMI and higher possibility of being overweight or obese for the poor than for the rich.


The median of the income per person in the Gapminder data for 2012 is only 14,460, and most of the African countries are under that median. But the rest of the countries are quite dispersed, specially in the case of East Asia and Pacific and South Asia.

The discrepancy with Asia has some particular condition. The WHO has determined that at any given BMI, Asians, including Singaporeans, generally have a higher percentage of body fat than do Caucasians. The BMI cut-off levels for Singaporeans have been revised such that a BMI 23 kg/m2 or higher marks a moderate increase in risk while a BMI 27.5 kg/m2 or more represents high risk for diabetes and cardiovascular diseases. 


Besides that, and coming back to all the continents data, a histogram showed that the median for BMI is 25.56, similar to the mean, 25.14. 

So in our analysis, most of the countries fall into the calification of overweight or obese, and as per several experts that’s the biggest problem in terms of alimentation that we have. More than underweighted we are eating bad food and not keeping a good metabolism balance. Also if you are poor and don’t have education you cannot resolve this situations to get the best nutrients and sustainable food at your hand. Education is one of other many variables that can have incidence in the causes of a higher BMI, such as ethniticity, and we cannot establish a serious correlation without searching deeper in other variables.  

Correlation with urban population

So I wanted to watch how urban population could correlate with the BMI index. Some studies at the national level find the lifestyle of urban people as one of the main causes of higher levels of obesity in cities, independently of income. It’s the case of a study in Brazil that found that urbanization and the more developed geographic regions were positively associated with the prevalence of overweight/obesity and negatively associated with the prevalence of underweight.

Graph: Body mass index vs. urban population 

In the grid of scatterplots by continent, we can effectively see a positive correlation for every group. The Asian look still very spread out, anyway. I’d study them in particular, after revising more papers on their specificities, and wouldn’t include them in a general analysis like this. But for the rest, the correlation is positive. 

There are a number of reasons for the association between obesity and economic growth in many economies. Technological changes that lead to the lower food prices and increased food consumption are some of the factors that explain economic growth and obesity, as a study by Finkelstein and Ruhm proved. Those factors increase working hours, which makes more people eat in restaurants and fast food joints.

I find this kind of explorations makes us pose more and more questions every time, and I could go on an on trying to find papers on each region and different variables, as I mentioned before, such as education, urban growth (not only total population), differences per latitudes, and so on.

Exploring datasets: Bikes in Madrid and education expenditure in Argentina

During last weeks I’ve been doing a MOOC on Data visualization for storytelling and discovery with Alberto Cairo, which I intensely recommend. I’ll post here some of the findings I’ve got from there. The studies are not totally finished as they would need more work to be presented as a journalistic piece, so shouldn’t be taken as more than an exercise in the learning process. 


 1. Dataset BiciMad

First, I wanted to go local, and I live in Madrid. In my city we have a relatively new public bike rental service, and they have their datasets available, so I got a dataset with the data on the new daily users.


In the histogram I can see the concentration and the spread of the data. There’s a curious outlier that corresponds with the maximum value of the dataset: 1446 and there’s another isolated value around 700. I find those two points like something worth of more research. Probably they correspond to the day that the service started or went open to the public. 

The x axis represents the number of new users of annual tickets per day. The y line represents the number of days that those users where registered. The distribution is skewed to the right, due to the outliers to the higher values of annual passes some few (2-6) days. 

The box plot shows the concentration of what could be a usual number of new users per day. The median is 132 and the mean is 133, so during that year (2014) that is the number of new users per day of this service. It could be useful to compare it with datasets of other years and other kind of information to see what variables make people decide to hop on bikes as a way of transportation in the city. 


2. Second case: Comparing education expenditure (%) with GINI Index in the last years in Argentina

I was born in Argentina, and there we have been having not very good official statistics in the last years in terms of transparency, so getting good analysis on that kind of data is usually extremely complicated. 

So I used data of the World Bank on three variables: total government expenditure on education, school enrollment primary private and GINI index. I know GINI is made of several indicators and not only education but I wanted to give it a try and see how it correlates. 


I used data from 1980 to 2015. The highest expenditure in education in general was in 2015, with 5.875 % of the GDP. In 1980 there is an outlier point with 2,6 % of GDP expended before a dark period of 15 years where there are no registry or the data we have goes below 2,6 %. 

From 1996 the line rises and shows a positive evolution until the last year in the series (2015), with some hiccup between 2002 and 2005, the years of the default crisis and political unstability in Argentina. The trend overall is positive, with a rank correlation of 0.86  (using Spearman’s Rank Correlation). 

The GINI index is the most commonly used measurement of inequality. A Gini coefficient of 1 (or 100%) expresses maximal inequality among values. So if the GINI index goes down it’s best in terms of equality for the country. For OECD countries, in the late 20th century, considering the effect of taxes and transfer payments, the income Gini coefficient ranged between 0.24 and 0.49.

When I added the GINI index using the colors in the values, I found that there’s a positive correlation, as in the last years where the expenditure on education is higher, the GINI index goes down (which means that Argentina gets closer to equality). There are some quite interesting periods of time, anyway, when this correlation does not happen. 

One is during 1980-1990 the expenditure was lower, quite less than 2,6%, and the GINI index kept below 45. It should be said that we have some missing values those years, and we should investigate further to reach any conclusion. 

The other is an outlier in 2001, when the government expenditure on education is 4.833740234, the highest in the period until 2009, but the GINI index in that year is the highest of the total number of observations, that is very bad for the equality in the country. I find this observation interesting as 2001 is one of the worst years of the crisis, when Argentina went into financial default. 

Facebook, tenemos un problema

Muchos quieren ver a Facebook arder. También a Cambridge Analytica, qué duda hay. Hay una fila masiva para poner en duda el triunfo de Donald Trump, y otra en Europa para cuestionar el del Leave en el Brexit. Pero el gran problema que se ha revelado esta semana excede a una sola compañía, por más grande que sea; a un solo presidente, por más que sea el del país más poderoso del mundo; y a un proceso político en la Unión Europea. Estamos teniendo un problemón con nuestra democracia, la privacidad y la libertad de nuestros ciudadanos. Todo eso junto y mezclado.

Explico por qué hoy en un largo análisis para El Huffington Post.

Si algo es gratis, el producto eres tú. O no.

Probablemente es una de las frases más usadas en tuits, medios y debates cuando se habla de datos personales, de privacidad, de redes sociales y servicios online. Este argumento, además de dar un titular muy resultón para columnas dominicales, es bastante cuestionable. 

Por un lado, el modelo gratis-con-publicidad lleva muchos años funcionando (pensemos en la radio o la TV) y eso no significa que los usuarios sean tratados como producto o sus datos vendidos. Por el otro, creer que porque pagas por algún servicio la empresa no te utiliza como producto o no explotará los datos que tiene de ti es como mínimo, ingenuo.

Evil Google ha encajado perfecto en el personaje que parece validar este argumento, pero desde que existe la publicidad, las audiencias, su relevancia, su atención, su tiempo y sus datos, son algo por lo que se paga, aunque el público ya sea suscriptor. 

La frase viene de los años 70, bastante antes de internet. Fue pronunciada en un corto sobre la TV llamado “Television delivers people”, en 1973, y se reprodujo en una entrevista de Richard Serra que hablaba de ese show. Pero se popularizó a través de un comentario de Andrew Lewis en unos foros de Metafilter.

Aparentemente también el argumento de “El producto eres tú” fue usado por Ronald Reagan en un discurso en 1986, en el que hablaba de la guerra contra las drogas. 

Defender la privacidad en lo relativo a los datos que utilizan las empresas con las que tenemos que relacionarnos es fundamental y por eso necesitamos utilizar argumentos más informados si queremos defender nuestros derechos.

Pokémon Go y sus usuarios en España

Pokémon Go según edades en España (Comscore)

¿Se acuerdan de cuando todo el mundo estaba cazando pokemones? No fue hace tanto. ComScore saca en un email datos de medición de aquel fenómeno que fue Pokémon Go. Sólo en Android Phones durante el mes de julio 3.794.000 usuarios únicos usaron esta aplicación. Entre todos suman 18.000 horas conectados al juego, número que, así a primeras, me parece algo bajo.

El perfil más destacado es el de hombres de 18-34 años que suponen el 37% de los usuarios. Segunda franja, la de las mujeres de esa misma edad. Curiosamente, hay más mujeres mayores de 55 años usando el juego que hombres de esa edad. 

En agosto empezamos a cansarnos de perseguir pokemones (yo una). Los usuarios bajan un 14% pero aún así se mantienen sobre los 3 millones. Lo que aumenta es el uso: 15% más de minutos totales jugados. Menos pero más fieles. 

En septiembre siguió bajando y ya fue de 2.227.000 visitantes únicos (-41% vs Julio) en teléfonos Android. 

De qué hablamos cuando hablamos de privacidad

Sexy Edward Snowden

Todos sabemos lo que es la privacidad, pero cuando hablamos de privacidad en internet sabemos que lo que hay en juego es mucho más que la definición de la RAE.

Un tiempo después de que Edward Snowden revelase la escala de invasión a la privacidad a la que estamos sometidos, tuve una charla con un experto en estos temas. Le dije que me parecía increíble que no hubiese más reacción por parte del público en general, ante lo que implicaba un giro en la manera en cómo nos relacionamos con la tecnología en el mundo actual. “Pareciera que no les afecta”, le dije. Él me contestó: “Es que no les afecta”.

La mayoría de las personas no ha visto diferencias notables en su vida después de que Snowden se jugara el pellejo para hacer conocer a la humanidad que era la más vigilada de la historia. La gente sigue escribiendo emails, haciendo click en enlaces, dando sus datos para obtener descuentos en el supermercado, hablando por teléfono con su madre para preguntarle una receta y dejando comentarios en redes sociales. Y no pasa nada.

Y no pasa nada, el experto lo repitió. Luego añadió: “Hasta que algún día ya no te interese hablar sólo de recetas y digas a tu madre que no estás de acuerdo con el sistema político que tenemos y que quieres hacer algo para cambiar eso”, por ejemplo. O que vivas en un país donde ser homosexual es delito, y te veas perseguido por conversaciones que tuviste. O que tengas que atravesar una frontera porque ha estallado una guerra, y estés sin papeles en el país al que caíste. O que una institución del gobierno o una empresa para la que trabajas te pida hacer algo que va contra tus principios. Nunca sabes cuándo el sistema puede empezar a considerarte sospechoso. En ese momento empezarás a buscar una forma de comunicarte que no esté intervenida, y quizás sea tarde para empezar a reivindicar derechos perdidos.

No somos criminales, ni estamos paranoicos. Tampoco queremos renunciar a la inmensa explosión de conexiones sociales y expansión del conocimiento y de otras realidades que nos trajo la Web. No pensamos dar la razón a los neoluditas ni a los medios que hacen fotomontajes de hackers con pasamontañas. No queremos dejar de jugar y de explorar, ni estamos dispuestos a renunciar al espacio de libertad que nos prometieron en los albores de la internet. Tendremos que hacerlo con cuidado y pensando qué tipo de futuro queremos. Con decisiones conscientes sobre nuestros datos y nuestra exposición, conociendo cuánto vale la información sobre nosotros que sólo nosotros podemos dar, y protegiendo e informando a los que llegan a los ámbitos digitales, cada vez más jóvenes y cada vez más desde la intuición de gestos en una pantalla.

Rosa Luxemburgo dijo una vez: “el que no se mueve no siente las cadenas”. Por eso es que cuando debatimos sobre privacidad también estamos hablando de libertad y de derechos humanos.

El próximo 4 de julio hablaré en la Jornada para Docentes en el CCCB sobre los orígenes del concepto de la privacidad y su evolución, y qué papel juega la tecnología en ello, en la conferencia “Privacidad en el entorno digital”.

Libertad y privacidad en Internet es un post que he publicado allí con algunos temas de los que hablaremos en esas jornadas. Está también en catalán y en inglés.

Cobertura del Volkswagen scandal en prensa española y francesa

El día en que se cumplió un mes desde que comenzara el Escándalo Volkswagen yo quería probar PageOneX, una herramienta para comparar el espacio que se da en portada a una noticia, y este me pareció buen tema para saber cómo había tratado la prensa un caso de fraude contra una compañía que se gasta un buen presupuesto en publicidad en medios.

Las cifras del Dieselgate hacen que el caso pueda ser catalogado como uno de los mayores fraudes al consumidor de los últimos años, por la cantidad de dinero, unidades implicadas y alcance internacional. Su relevancia informativa también se deriva de la importancia que tiene esta empresa en la economía de varios países europeos.

He comparado la cantidad de espacio que se le otorgó a este tema en portada en los principales diarios de tirada nacional en papel en dos países europeos, España y Francia, donde se han vendido 700.000 y un millón de vehículos trucados respectivamente. Un dato para el que no quiera leer hasta el final: el día de mayor cobertura, 41,5 % en la prensa francesa analizada mientras la española no llegaba a un 15 % de espacio en sus portadas de papel. Son datos del análisis que hice con PageOneX, limitados a unas pocas cabeceras y sólo en papel: 240 portadas en total. Los detalles del estudio están más abajo.

El Dieselgate

El llamado Dieselgate o Escándalo Volkswagen comenzó el 18 de septiembre cuando la EPA, una agencia del gobierno de los Estados Unidos encargada de hacer cumplir las regulaciones que afectan a la salud y el medio ambiente, acusó al Grupo Volkswagen de haber metido un software en sus vehículos diésel que les permitía alterar su funcionamiento cuando estaban pasando los controles técnicos de emisiones contaminantes.

Según la EPA, estos vehículos emiten hasta 40 veces el límite legal de óxidos de nitrógeno. Se estima que este programa funciona actualmente 11 millones de coches en todo el mundo. La multa que puede tocar pagar a la compañía, sólo en Estados Unidos, donde hay 500.000 coches afectados, es de 37.500 dólares (33.661 euros) por coche. Las acciones llegaron a caer un 25% en un solo día después de conocerse el escándalo.

La crisis internacional de la marca, que comenzó a ser investigada en varios países, se cobró la cabeza de su CEO Martin Winterkorn, y tres directivos más. El escándalo puso sobre la mesa los altos niveles de polución emitidos también por coches de otros fabricantes, y un estudio mostró desviaciones de los límites en la conducción real de Volvo, Renault, Jeep, Hyundai, Citroen y Fiat. Volkswagen ha sido de forma ininterrumpida, durante dos décadas, el mayor productor de automóviles de Europa y estuvo muy cerca de ser el mayor vendedor mundial en 2014, sólo por detrás de Toyota.

Qué comparé

Analicé las portadas de papel durante un mes desde el 18 de septiembre de 4 diarios españoles de tirada nacional. De ellos, 3 generalistas (El País, El Mundo y ABC) y uno económico (El Economista) para ver la comparación. Luego hice otro análisis con las portadas de los diarios franceses (Le Figaro, Le Monde y Liberation) y también uno especializado en Economía, Les Echos.

Las portadas de los digitales pueden ser muy cambiantes (en en un día normal podemos tener 50 versiones), y esta herramienta no las tiene, porque su base de datos se nutre de, así que no los he incluido. Me hubiera gustado tenerlas y pienso que no debería ser muy difícil incluir un parámetro en la herramienta que haga un screenshot de determinadas páginas home cuando se modifican (sugerencia para PageOneX).

Qué muestran los gráficos

El primer thread que hice muestra la cobertura del dieselgate de los diarios españoles:


– El Economista y El País sacaron la noticia por primera vez en portada el 22/9, un día antes que el resto, aunque bastante pequeña en superficie.

– El tema recibe la máxima cobertura en el conjunto de la prensa analizada al día siguiente, el 23, donde entre todos no llega a un 15 %.

– ABC nunca consideró que este tema mereciese estar en portada.

Comparación con la cobertura del dieselgate en diarios franceses:


El primer vistazo muestra que en los periódicos franceses comparados la cobertura es mayor.

– Todos los periódicos decidieron llevar el tema en portada varios días. El que menos, Liberation, que sin embargo le dedica dos portadas monotema como es su estilo gráfico: elige sólo uno o dos temas para cubrir toda su portada.

– El resto también deciden que este tema abra portada varios días: Le Figaro y Le Monde (3), Les Echos (5).

– Además de ser el que más lleva el tema abriendo en portada, Les Echos es el primero que saca la noticia el día 21. Al día siguiente se suma Le Figaro y el 23 y el 24 son los días en que mayor cobertura recibe el Dieselgate en portada, ocupando respectivamente un 41,5 % y un 37,9 % de media del área de cobertura conjunta. Es decir que durante dos días el dieselgate ocupa un 40 % en portada, contra el 15 % del día en que más cobertura consigue en la prensa española.

[Actualización 25/11] Como tuve algunas dudas en los números que arrojaba la herramienta consulté con PageOneX que me confirmaron que hay un bug que duplicó las capas de algunas de las portadas que yo había seleccionado, por lo que la superficie era mayor. Por lo tanto rehice la selección y corregí los porcentajes. Aún así el espacio dedicado en las portadas francesas supera en unos 25 puntos más a las españolas.

@numeroteca ha puesto todos los datos en una sola hoja de cálculos aquí. (Gracias)

Blog Widget by LinkWithin