You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Tout d'abord merci pour votre contribution sur les données libre du gouvernement.
Je suis en train de jeter un oeil aux données du COVID-19 et elles me paraissent erronées a de nombreux endroits. En effet la colonne "deces" représente le "total cumulé du nombre de décès", ce qui ne peut donc pas diminuer, en revanche je compte plusieurs points de données où c'est le cas:
Je constate que les données sont compilées avec NodeJS. J'ai rien contre NodeJS, mais à mon avis pour travailler avec des données il serait plus judicieux de basculer sur Python, où des librairies comme pandas peuvent faciliter grandement le travail.
Par exemple détecter ce genre d'erreurs se fait en quelques lignes:
# Loading data
# Sorting by nom+date so we can use .diff() method
# For each location (group on nom), we get diff of deaths with previous time period
# if the diff is negative, it means total deaths went down which isn't possible
# we export data to CSV and raise exception
import pandas as pd
df = pd.read_json(path+'chiffres-cles.json')
df = df.sort_values(['nom','date'])
df['diff'] = df.groupby(['nom'])['deces'].diff().fillna(0)
df_errors = df[df['diff']<0]
if not df_errors.empty:
df_errors[cols].to_csv(path+'errors.csv',index=False)
raise Exception('Total deaths for certain locations decreasing, not possible')
Voilà, ma modeste contribution...
The text was updated successfully, but these errors were encountered:
Nous avons observé ce type d'erreur également de notre côté en proposant https://github.com/kalisio/covid-19 et avons choisi de rajouter un traitement visant à combler les trous dans les données à partir des valeurs de la vieille et en conservant également les valeurs max observées concernant les cumuls pour y pallier.
Tout d'abord merci pour votre contribution sur les données libre du gouvernement.
Je suis en train de jeter un oeil aux données du COVID-19 et elles me paraissent erronées a de nombreux endroits. En effet la colonne "deces" représente le "total cumulé du nombre de décès", ce qui ne peut donc pas diminuer, en revanche je compte plusieurs points de données où c'est le cas:
Par exemple:
https://imgur.com/a/kJOCL3x
Je constate que les données sont compilées avec NodeJS. J'ai rien contre NodeJS, mais à mon avis pour travailler avec des données il serait plus judicieux de basculer sur Python, où des librairies comme pandas peuvent faciliter grandement le travail.
Par exemple détecter ce genre d'erreurs se fait en quelques lignes:
Voilà, ma modeste contribution...
The text was updated successfully, but these errors were encountered: