## Imports

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns

## EXERCICE 1 
Télécharger le fichier https://kirgizov.link/teaching/esirem/bigdata/dataset/wikirank-fr. tsv.gz contenant les scores de qualité des articles basés sur les données de Wikipédia (mai 2019),
Les indices de popularité et d’intérêt des auteurs basé sur l’activité d’avril 2019.

## EXERCICE 2 
Décompresser le fichier (en utilisant gunzip par exemple). Quelle est la taille du fichier après décompression ?


In [None]:
df = pd.read_csv("wikirank-fr-v2.tsv", sep='\t')

## EXERCICE 3 
Regarder les données, leur structure. Répondez aux questions suivantes : 

- Combien de lignes et de colonnes y a-t-il dans le fichier ?

In [None]:
df

In [None]:
df.shape

In [None]:
df.shape[0]

- Quel est le type de données de chaque colonne (par exemple, int, float, str) ?

In [None]:
df.dtypes

In [None]:
df.info(memory_usage="deep")

- Quelle est la fourchette de valeurs de chaque colonne numérique ?

In [None]:
df['quality'].max()

In [None]:
pd.to_numeric(df['quality'])

In [None]:
df['quality'].iloc[6428844]

In [None]:
df.iloc[6428844]

In [None]:
df[df['quality'] == 'quality']

In [None]:
df = df[df['quality'] != 'quality'].reset_index(drop=True)

In [None]:
pd.to_numeric(df.quality)

In [None]:
numerical_columns = ['page_id', 'popularity', 'authors_interest', 'quality']

In [None]:
for col in numerical_columns:
    df[col] = pd.to_numeric(df[col])

In [None]:
df.dtypes

In [None]:
df.max()

In [None]:
df.min()

- Quelle colonne occupe la plus grande partie de la mémoire ?

In [None]:
df.memory_usage()

- Si possible, fixez le type de données à un type plus compact.

In [None]:
df['quality'] = pd.to_numeric(df['quality'], downcast='float')

In [None]:
df.dtypes

In [None]:
df.memory_usage()

In [None]:
df['popularity'] = pd.to_numeric(df['popularity'], downcast='float')
for col in ['authors_interest', 'page_id']:
    df[col] = pd.to_numeric(df[col], downcast='integer')

In [None]:
df.dtypes

In [None]:
df.memory_usage()

In [None]:
df.info(memory_usage="deep")

## EXERCICE 4 
Regarder attentivement les données. Essayer de trouver des erreurs structurelles et les corriger. 
Considérez les points suivants :
- Y a-t-il des valeurs manquantes ?

In [None]:
df.isna()

In [None]:
df.isna().sum()

In [None]:
df[df['page_name'].isna()]

In [None]:
df = df[~df.page_name.isna()]
df = df[~df.popularity.isna()].reset_index(drop=True)
df.shape

- Y a-t-il des doublons ?

In [None]:
df['page_id'].unique()

In [None]:
df['page_id'].unique().shape

In [None]:
df.shape

In [None]:
df.shape[0]/df['page_id'].unique().shape[0]

In [None]:
df = df.drop_duplicates()

In [None]:
df.shape

In [None]:
page_ids, page_counts = np.unique(df['page_id'], return_counts=True)

In [None]:
non_unique_page_ids = page_ids[page_counts > 1]
len(non_unique_page_ids)

In [None]:
non_unique_page_ids

In [None]:
df[df.page_id == 89845]

In [None]:
df[df.page_id == 5331459]

- Y a-t-il des valeurs qui se situent en dehors de l’intervalle spécifié ?

In [None]:
df[df.quality > 100]

In [None]:
df[df.quality > 100].shape

In [None]:
df = df[df.quality <= 100]

    - Revérifier les doublons

In [None]:
page_ids, page_counts = np.unique(df['page_id'], return_counts=True)
non_unique_page_ids = page_ids[page_counts > 1]
len(non_unique_page_ids)
non_unique_page_ids

In [None]:
df[df.page_id == 6812883]

In [None]:
%%html
<iframe width="640" height="480" src="https://www.youtube.com/embed/-Am18-CB1D8" title="Bizarre, Vous avez dit bizarre" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
 

# QUESTION POUR VOUS!
Quoi faire avec l'article 6812883 ?

In [None]:
# supprimer ??
df = df[~ ((df.page_id == 6812883) & (df.quality == 13.6747))]

In [None]:
# et maintenant c'est bon ?
page_ids, page_counts = np.unique(df['page_id'], return_counts=True)
non_unique_page_ids = page_ids[page_counts > 1]
len(non_unique_page_ids)


## EXERCICE 5
Compter le nombre d’articles après avoir corrigé les erreurs.

In [None]:
df.shape

In [None]:
df.info(memory_usage='deep')

## EXERCICE 6 
Explorez la variable de popularité.

- Visualiser la distribution de la popularité.

In [None]:
plt.hist(df['popularity'], bins=100)
plt.title('Popularity')

In [None]:
np.sum(df['popularity'] > 2000)

In [None]:
x = np.percentile(df['popularity'], q = 99.99)
x

In [None]:
plt.hist(df[df['popularity'] > x].popularity, bins=100)
plt.title('Popularity: 99.99%')

- Afficher le TOP 20 des articles les plus  les moins populaires. 

In [None]:
df.sort_values(by='popularity', ascending=True)[:20]

In [None]:
df.sort_values(by='popularity', ascending=False)[:20]

- Combien d’articles ont une popularité égale à zéro 

In [None]:
df[df['popularity'] == 0]

In [None]:
100 * df[df['popularity'] == 0].shape[0] / df.shape[0]

## EXERCICE 7 
Calculer et visualiser les corrélations entre toutes les variables numériques. 
Quelle variable a la plus grande corrélation avec la popularité ?

In [None]:
numerical_columns

In [None]:
numerical_columns.remove('page_id')

In [None]:
df[numerical_columns].corr()

In [None]:
sns.heatmap(df[numerical_columns].corr())

In [None]:
for col in ['authors_interest', 'quality']:
    plt.scatter(df['popularity'], df[col])
    plt.xlabel('popularity')
    plt.ylabel(col)
    plt.title(f'popularity:{col}')
    plt.show()

In [None]:
for col in ['authors_interest', 'quality']:
    plt.hist2d(df['popularity'], df[col], bins = [30, 30], norm = mpl.colors.LogNorm())
    plt.colorbar()
    plt.xlabel('popularity')
    plt.ylabel(col)
    plt.title("Density plot with logarithmic colors")
    plt.show()

In [None]:
for col in ['authors_interest', 'quality']:
    plt.scatter(df['popularity'], df[col])
    plt.xscale("log")
    plt.yscale("log")
    plt.xlabel("Popularity")
    plt.ylabel(col)
    plt.title("Scatter log-log plot")
    plt.show()


## EXERCICE 8 
Trouver les articles qui ont des caractéristiques aberrantes.

In [None]:
for col in ['authors_interest', 'quality', 'popularity']:
    plt.boxplot(df[col])
    plt.title(col)
    plt.show()

Exemple de caractéristiques aberrantes. Articles très populaire mais peu d'auteurs

In [None]:
df [ (df['popularity'] > 5000) & (df['authors_interest'] < 100) ]

Articles peu populaire mais ayant trop d'auteurs

In [None]:
df [ (df['popularity'] < 5000) & (df['authors_interest'] > 70) ]