x-datascience-datacamp · Maryem-HAJJI · Dec 21, 2023 · Dec 21, 2023
diff --git a/pandas_questions.py b/pandas_questions.py
@@ -15,9 +15,9 @@
 
 def load_data():
     """Load data from the CSV files referundum/regions/departments."""
-    referendum = pd.DataFrame({})
-    regions = pd.DataFrame({})
-    departments = pd.DataFrame({})
+    referendum = pd.read_csv('./data/referendum.csv', sep=';')
+    regions = pd.read_csv('./data/regions.csv', sep=',')
+    departments = pd.read_csv('./data/departments.csv', sep=',')
 
     return referendum, regions, departments
 
@@ -28,8 +28,11 @@ def merge_regions_and_departments(regions, departments):
     The columns in the final DataFrame should be:
     ['code_reg', 'name_reg', 'code_dep', 'name_dep']
     """
-
-    return pd.DataFrame({})
+    df = regions.merge(departments, left_on='code',
+                       right_on='region_code',
+                       suffixes=('_reg', '_dep'))
+    df = df[['code_reg', 'name_reg', 'code_dep', 'name_dep']]
+    return df
 
 
 def merge_referendum_and_areas(referendum, regions_and_departments):
@@ -38,8 +41,15 @@ def merge_referendum_and_areas(referendum, regions_and_departments):
     You can drop the lines relative to DOM-TOM-COM departments, and the
     french living abroad.
     """
+    filtered_referendum = referendum[
+        ~referendum['Department code'].str.startswith('Z')]
+    filtered_referendum.loc[:, 'Department code'] = filtered_referendum[
+        'Department code'].apply(lambda x: str(x).zfill(2))
+    merged_dataframe = filtered_referendum.merge(regions_and_departments,
+                                                 left_on='Department code',
+                                                 right_on='code_dep')
 
-    return pd.DataFrame({})
+    return merged_dataframe
 
 
 def compute_referendum_result_by_regions(referendum_and_areas):
@@ -48,8 +58,12 @@ def compute_referendum_result_by_regions(referendum_and_areas):
     The return DataFrame should be indexed by `code_reg` and have columns:
     ['name_reg', 'Registered', 'Abstentions', 'Null', 'Choice A', 'Choice B']
     """
-
-    return pd.DataFrame({})
+    df = referendum_and_areas.groupby([
+        'code_reg', 'name_reg']).sum().reset_index()
+    df = df.set_index('code_reg')[['name_reg',
+                                   'Registered', 'Abstentions',
+                                   'Null', 'Choice A', 'Choice B']]
+    return df
 
 
 def plot_referendum_map(referendum_result_by_regions):
@@ -61,8 +75,12 @@ def plot_referendum_map(referendum_result_by_regions):
       should display the rate of 'Choice A' over all expressed ballots.
     * Return a gpd.GeoDataFrame with a column 'ratio' containing the results.
     """
-
-    return gpd.GeoDataFrame({})
+    geo_data = gpd.read_file('data/regions.geojson')
+    df = pd.merge(geo_data, referendum_result_by_regions, left_on='code',
+                  right_index=True, how='left')
+    df['ratio'] = df['Choice A'] / (df['Choice A'] + df['Choice B'])
+    df.plot(column='ratio', legend=True)
+    return gpd.GeoDataFrame(df)
 
 
 if __name__ == "__main__":