try:
    __import__("pandas")
except Import_error:
    ! pip install --user install pandas

import pandas as pd
import matplotlib.pyplot as pl
    
df = pd.read_csv('titanic.csv') # df est un Data_frame
df.head() # pour afficher les 5 premières lignes

len(df)

891

df.loc[0]

Survived       0
Pclass         3
Sex         male
Age         22.0
Fare        7.25
Name: 0, dtype: object

df["Age"]

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    28.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

df.loc[2, "Age"]

26.0

maxi_age = 0
for i in df.index:
    if df.loc[i, "Age"] > maxi_age:
        maxi_age = df.loc[i, "Age"]
maxi_age

80.0

df["Sex"] = df["Sex"].map({"male": 0, "female": 1}) # remplace male par 0 et female par 1
df.head()

df[df["Pclass"]==3]

def moyenne(df, col):
    m = 0
    for i in df.index:
        m += df.loc[i, col]
    return m / len(df)

print("Âge moyen : {:.0f} ans".format(moyenne(df, "Age")))
print("Prix moyen du billet : {:.0f}$".format(moyenne(df, "Fare")))
for classe in [1,3]:
    print("Taux de femmes en {}e classe : {:.0f}%".format(classe,100*moyenne(df[df["Pclass"]==classe], "Sex")))

Âge moyen : 29 ans
Prix moyen du billet : 32$
Taux de femmes en 1e classe : 44%
Taux de femmes en 3e classe : 29%

def ecart_type(df, col):
    m = moyenne(df, col)
    s = 0
    for i in df.index:
        s += (df.loc[i, col] - m)**2
    return (s / len(df))**0.5

ecart_type(df, "Age")

13.01238827279366

def survivants(df,col,val):
    n_survivants = 0
    n = 0
    for i in df.index:
        if df.loc[i, col] == val:
            n_survivants += df.loc[i, "Survived"]
            n += 1
    return n_survivants/n

dic={'hommes':(df,"Sex", 0),
     'femmes':(df,"Sex", 1),
     'passagers de 1ère classe':(df,"Pclass", 1),
     'passagers de 3ème classe':(df,"Pclass", 3),
     'passagers féminins de 3ème classe':(df[df["Sex"]==1],"Pclass", 3),
     'passagers masculins de 1ère classe':(df[df["Sex"]==0],"Pclass", 1)}

for clef,val in dic.items():
    print("Taux de survie pour {} : {:.0f}%".format(clef,100*survivants(*val)))

Taux de survie pour hommes : 19%
Taux de survie pour femmes : 74%
Taux de survie pour passagers de 1ère classe : 63%
Taux de survie pour passagers de 3ème classe : 24%
Taux de survie pour passagers féminins de 3ème classe : 50%
Taux de survie pour passagers masculins de 1ère classe : 37%

def standardiser(df, col):
    m = moyenne(df, col)
    s = ecart_type(df, col)
    for i in df.index:
        df.loc[i, col] = (df.loc[i, col] - m) / s

for c in ["Age", "Fare", "Pclass", "Sex"]:
    standardiser(df, c)
df.head()

p = df.loc[0] # 1er passager
p["Age"], p["Fare"], p["Pclass"], p["Sex"] # attributs de p

(-0.5657364610748732,
 -0.502445171436192,
 0.8273772438659728,
 -0.7376951317802913)

def distance(p1, p2):
    d = 0
    for c in ["Pclass", "Sex", "Age", "Fare"]:
        d += (p1[c] - p2[c])**2
    return d**0.5

distance(df.loc[0], df.loc[1]) # distance entre les deux premiers passagers

3.6448209962214078

train = df.sample(frac=0.9,random_state=0)
test = df.drop(train.index)
print("nombre de données dans train :", len(train))
print("nombre de données dans test :", len(test))

nombre de données dans train : 802
nombre de données dans test : 89

def voisins(x, k):
    indices = sorted(train.index, key=lambda i: distance(x, train.loc[i]))
    return indices[:k]

voisins(test.iloc[0], 5)

[446, 651, 546, 427, 389]

def plus_frequent(L): # renvoie la classe qui apparaît le plus souvent dans L
    # création d'un dictionnaire qui répertorie les fréquences d'apparition
    compte = {}
    for e in L:
        if e in compte:
            compte[e]+=1
        else:
            compte[e]=1
    # détermination du max sur le dictionnaire
    maxi=0
    for clef,val in compte.items():
        if val>maxi:
            clef_maxi,maxi=clef,val
    return clef_maxi

plus_frequent([2, 1, 5, 1, 2, 5, 5])

5

def knn(x, k):
    l_vois=[]
    for i in voisins(x, k):
        l_vois.append(train.loc[i, "Survived"])   
    return plus_frequent(l_vois)

knn(test.iloc[0], 5)

1

def precision(k):
    n = 0
    for i in test.index:
        if knn(test.loc[i], k) == test.loc[i, "Survived"]:
            n += 1
    return n / len(test)

precision(3)

0.8314606741573034

calcul_precision=[precision(k) for k in range(1,6)]

def plot_precision(kmax):
    R = range(1, kmax+1)
    pl.plot(R, calcul_precision[:kmax] ,'o')
    pl.show()

plot_precision(5)

	Survived	Pclass	Sex	Age	Fare
0	0	0.827377	-0.737695	-0.565736	-0.502445
1	1	-1.566107	1.355574	0.663861	0.786845
2	1	0.827377	1.355574	-0.258337	-0.488854
3	1	-1.566107	1.355574	0.433312	0.420730
4	0	0.827377	-0.737695	0.433312	-0.486337

T.P. n°6 Intelligence artificielle et apprentissage - corrigé

Classification des survivants du Titanic¶

Chargement des données avec Pandas¶

Variables catégorielles¶

Statistiques¶

Standardisation¶

Distance¶

Séparation des données¶

Algorithmes des plus proches voisins¶

Analyse des résultats¶

	Survived	Pclass	Sex	Age	Fare
0	0	3	male	22.0	7.2500
1	1	1	female	38.0	71.2833
2	1	3	female	26.0	7.9250
3	1	1	female	35.0	53.1000
4	0	3	male	35.0	8.0500