-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathDispensa_Essential.tex
588 lines (446 loc) · 30.5 KB
/
Dispensa_Essential.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
\documentclass[a4paper]{report}
\usepackage[top=25mm,bottom=25mm]{geometry}
\usepackage[utf8]{inputenc}
\usepackage[italian]{babel}
\usepackage[T1]{fontenc}
\usepackage{amssymb}
\usepackage{mathtools}
\usepackage{graphicx}
\usepackage{hyperref}
\title{Dispense essenziali di Probabilità e Statistica}
\author{Matteo Bitussi \\ Laurea in Informatica, Unitn}
\date{Anno accademico 2018-2019}
\begin{document}
\maketitle
\tableofcontents
\section*{Introduzione}
Questa dispensa è pensata per raccogliere le informazioni essenziali necessarie per lo svolgimento degli esercizi durante l'anno e/o per l'esame finale. Per questo motivo non saranno approfondite e non potranno sostituire quelle fornite dal professore.
\chapter{Probabilità}
\section{Insieme delle parti di $\Omega$: $P(\Omega)$}
Dato l'insieme $\Omega$ si dice \textbf{Insieme delle Parti} o \textbf{Insieme Potenza} di $\Omega$ l'insieme $P(\Omega)$ di tutti i possibili sottoinsiemi di $\Omega$.
\section{Tribù (o $\sigma$-algebra))}
Una classe $\mathcal{A}$ di parti di un insieme $\Omega$ si dice una \textbf{Tribù} se:\\
\begin{itemize}
\item $\Omega \in \mathcal{A}$
\item Se $A \in \mathcal{A}$ allora $A^c \in \mathcal{A}$
\item Se $A_1, \dots ,A_i \in \mathcal{A}$ allora $\bigcup\limits_{i=1}^{\infty} A_{i} \in \mathcal{A}$
\end{itemize}
\section{Spazio Probabilizzabile}
Dato uno spazio campionario $\Omega$ e una tribù $\mathcal{A}$ su $\Omega$, la coppia $(\Omega,\mathcal{A})$ è detto \textbf{Spazio Probabilizzabile}
\section{Definizione di Probabilità}
Dato uno spazio probabilizzabile $(\Omega,\mathcal{A})$, una \textbf{Probabilità} $Pr$ è un'applicazione $Pr:\mathcal{A} \longrightarrow \mathbb{R}^+$ tale che:
\begin{itemize}
\item (non negatività) se $A \in \mathcal{A}$ allora $Pr(A) \geq 0$
\item (normalizzazione) $Pr(\Omega) = 1$
\item ($\sigma$-addività) Se ${\{A_i\}}_{i=1}^{\infty}$ è una successione di eventi di $\mathcal{A}$ a due a due incompatibili (cioè $A_i \cap A_j = \emptyset, i \neq j$), allora
\[ Pr(\bigcup\limits_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} Pr(A_i) \]
\end{itemize}
\section{Spazio proabilizzato}
La terna $(\Omega, \mathcal{A}, Pr)$ dove $\Omega$ è uno spaio campionario, $\mathcal{A}$ è una Tribù su $\Omega$ e $Pr$ è una funzione di probabilità $Pr\colon \mathcal{A} \longrightarrow \mathbb{R^+}$, è detta \textbf{Spazio di Probabilità} o anche spazio di Kolmogrov.
\section{Regole di calcolo delle probabilità}
\subsection{Regola 1}
Se $A$ è un evento di probabilità $Pr(A)$ allora la probabilità che $A$ non si verifichi è
\[ Pr(A^c)=1-Pr(A) \]
\subsection{Regola 2}
Se $A$ e $B$ sono due eventi, allora la probabilità che se ne verifichi almeno uno è data da
\[ Pr(A \cup B) = Pr(A) + Pr(B) - Pr(A \cap B) \]
\subsection{Regola 3}
Se $A$ è un evento che implica l'evento $B$, cioè se $A \subseteq B$, allora
\[ Pr(B) = Pr(A) + Pr(B \cap {A}^{c}) \geq Pr(A) \]
\subsection{Regola 4 (Disuguaglianza di Bonferroni)}
Se $A_1, A_2, \dots, A_n$ non sono eventi, allora
\[ \sum_{i=1}^{n} Pr(A_i) - \sum_{1_\leqslant i \leqslant j \leqslant n} Pr(A_i \cap A_j) \leqslant Pr(\bigcup\limits_{i=1}^{n} A_i) \leqslant \sum_{i=1}^{n} Pr(A_i), n \geq 1 \]
\chapter{Calcolo combinatorio}
\section{Disposizioni con ripetizione}
Dato un insieme $S = {a_1,a_2,\dots,a_n}$ di $n$ oggetti distinti, il numero degli allineamenti che si possono formare con $k$ oggetti scelti tra gli $n$ - ritenendo diversi due allineamenti, o perchè contengono oggetti differenti o perche gli stessi oggetti si susseguono in ordine diverso o, infine, perchè uno stesso oggetto si ripete un numero diverso di volte - è dato da
\[ D_{n,k}^* = n^k \]
Ogni allineamento si dice disposizione con ripetizione di $n$ oggetti di classe $k$.
\section{Disposizioni senza ripetizione}
Dato un insieme $S={a_1,a_2,\dots,a_n}$ di $n$ oggetti distinti, il numero degli allineamenti che si possono formare con $1 \leqslant k \leqslant n$ ogetti scelti tra gli $n$ - ritenendo diversi due allineamenti o perchè contengono oggetti differenti o perchè gli stessi oggetti si susseguono in ordine diverso - è dato da
\[ D_{n,k} = n(n-1)(n-2)\dots(n-k + 1) \]
Ogni allineamento si dice disposizione semplice o senza ripetizione di $n$ oggetti di classe $k$
\section{Permutazioni}
Dato un insieme $S={a_1,a_2,\dots,a_n}$ di $n$ oggetti distinti, il numero degli allineamenti che si possono formare con tutti essi - ritenendo diversi due allineamenti perchè gli oggetti si susseguono in ordine diverso - è dato da $n!$
\section{Combinazioni}
Dato un insieme $S={a_1,a_2,\dots,a_n}$ di $n$ oggetti distinti, il numero degli allineamenti che si possono formare con $1 \leqslant k \leqslant n$ oggetti scelti tra gli $n$ - ritenendo diversi due allineamenti solo perchè contengono oggetti differenti - è dato da
\[ C_{n,k} = \frac{D_{n,k}}{k!} \]
Ogni allineamento si dice combinazione senza ripetizione di $n$ oggetti di classe $k$
\section{Cardinalità dell'insieme delle parti di un insieme finito}
Sia $S_n={a_1,a_2,\dots,a_n}$ un insieme di $n$ oggetti distinti, allora la cardinalità di $P(S)$ è $ 2^n$
\chapter{Probabilità sui reali}
\section{Tribù borelliana}
Si chiama Tribù Boreliana di $\mathbb{R}$, e si denota con $\mathcal{B}(\mathbb{R})$, la tribù generata su $\mathbb{R}$ dalla classe di tutti gli intervalli $(a,b]$ di $\mathbb{R}$. I suoi elementi si chiamano gli insiemi boreliani di $\mathbb{B}$. e lo spazio $(\mathbb{R},\mathcal{B}(\mathbb{R}))$ è uno spazio probabilizzabile.
\subsubsection{Elementi della tribù Borelliana}
La tribù di Borel su $\mathbb{R}$ contiene anche i seguenti Elementi
\begin{itemize}
\item $(a,b]$
\item $[a,b]$
\item $[a,b)$
\item $(-\infty, b]$
\item $(a, \infty)$
\item i singoletti di $\mathbb{R}$
\item gli insiemi finiti di $\mathbb{R}$
\item gli insiemi numerabili di $\mathbb{R}$
\end{itemize}
\section{Costruzione di una funzione di probabilità su $(\mathbb{R},\mathcal{B}(\mathbb{R}))$}
Per procedere all'assegnazione di una funzione di Probabilità agli eventi di $\mathcal{B}(\mathbb{R})$, si fissa la probabilità da attribuire agli intervalli $(a,b]$ mediante una funzione $F(x)$ che è
\begin{itemize}
\item non decrescente
\item continua da destra per ogni $x \in \mathbb{R}: \lim_{x\to x_0^+}(x) = F(x_0)$ per ogni $x_0 \in \mathbb{R}$
\item $\lim_{x\to +\infty} F(x) = 1$
\item $\lim_{x\to -\infty} F(x) = 0$
\end{itemize}
ponendo
\[ Pr((a,b]) = F(b) - F(a) \]
Ad ogni insieme di $\mathcal{B}(\mathbb{R})$ è quindi possibile attribuire una probabilità. Il calcolo effettivo di Pr(A) può essere fatto in modo semplice quando $A$ è
\begin{itemize}
\item un intervallo
\item un'unione numerabile di intervalli disgiunti
\end{itemize}
\[ Pr(\bigcup\limits_{i=1}^{\infty} (a_i,b_i]) = \sum_{i=1}^{\infty} Pr((a_i,b_i]) = \sum_{i=1}^{\infty} (F(b_i)-F(a_i)) \]
\section{Probabilità condizionale}
Sia $(\Omega, \mathcal{A}, Pr)$ uno spazio probabilizzato. Fissato un elemento $h$ di $\mathcal{A}$ con $Pr(H) \neq 0$, si chiama funzione di probabilità dedotta da $Pr$ sotto la condizione $H$ la funzione di probabilità $Pr_H$ sullo spazio $(\Omega, \mathcal{A})$ Probabilizzabile
\[ Pr_H(A) = \frac{Pr(A \cap H)}{Pr(H)} \]
Per ogni evento $A \in \mathcal{A}$.
La probabilità $Pr_H(A)$ si chiama \textbf{Probabilità Condizionale} di $A$, secondo $Pr$, sotto la condizione $H$ e si denota
\[ Pr(A|H) \]
\section{Classe Completa di eventi}
Dato uno spazio probabilizzabile $(\Omega, \mathcal{A})$ la famiglia di eventi ${\{A_i\}_\infty^{i=1}}$ è detta Classe Completa se
\begin{itemize}
\item $\bigcup\limits_{n=1}^{\infty} A_n = \Omega$
\item $A_i \cap A_j = \emptyset, i \neq j$
\end{itemize}
\section{Teorema delle Probabilità Totali}
Sia ${\{A_i\}_\infty^{i=1}}$ una famiglia di eventi che costituisce una Classe Completa di $\Omega$ tale che
\[ Pr(A_i) > 0, i = 1,2,\dots \]
Sia $B$ un qualunque evento. allora
\[ Pr(B) = \sum_{i=1}^\infty Pr(A_i \cap B) = \sum_{i=1}^\infty Pr(A_i)Pr(B|A_i) \]
\section{Teorema di Bayes}
Sia ${\{A_\}}_{i=1}^\infty$ una Classe Completa di eventi tale che:\\
$$Pr(A_i) > 0, i = 1,2,\dots$$
e $B$ un qualunque evento con $Pr(B)>0$. allora
$$Pr(A_i|B)=\frac{Pr(A_i)Pr(B|A_i)}{\sum_{j=1}^\infty Pr(A_j)Pr(B|A_j)} \qquad j=1,2,\dots $$
\section{Indipendenza stocastica}
In uno spazio probabilizzato $(\Omega, \mathcal{A}, P)$ due eventi $A,B$ si dicono tra loro stocasticamente indipendenti se e solo se
$$Pr(A \cap B) = Pr(A) \cdot Pr(B)$$
In particolare si noti che dati due eventi stocasticamente indipendenti $A, B$ allora:
$$Pr(A|B) = \frac{Pr(A \cap B)}{Pr(B)} = Pr(A)$$
e lo stesso vale per $Pr(B|A) = Pr(B)$\\
La nozione di indipendenza può essere estesa a più di due eventi. Vedi NOTE-B P.61
\section{Tribù indipendenti}
Dato uno spazio probabilizzato $(\Omega, \mathcal{A}, Pr)$. Due Tribù contenute in $\mathcal{A}$ si dicono tra loro indipendenti se ogni elemento dell'uno è indipendente da ogni elemento dell'altra.
\chapter{Variabili Aleatorie}
Sia dato lo spazio probabilizzabile $(\Omega, \mathcal{A})$. Si dice \textbf{Variabile aleatoria} (v.a.) ogni funzione a valori reali definita in $\Omega, y = X(\omega)$, tale che
$$ \{\omega \in \Omega : X(\omega) \leqslant x\} \in \mathcal{A} $$ per ogni valore reale $x$.
\begin{itemize}
\item Giova osservare che nella definizione la probabilità non gioca alcun ruolo e che quando $\mathcal{A}$ è la classe di tutti i sottoinsiemi di $\Omega$ la condizione nella definizione è sempre soddisfatta.
\item Per rendersi conto della necessitò di imporre alla funzione $X(\omega)$ la condizione riportata sopra, basterà dire che, intendendo assegnare una probabilità agli insiemi $\{\omega \in \Omega : X(\omega) \leqslant x\}$ per ogni reale $x$ ed avendo probabilizzato la classe $\mathcal{A}$, occore che tali insiemi appartengano ad $A$.
\end{itemize}
\section{Variabili aleatorie e Tribù}
Siano $\tilde{\Omega}$ e $\Omega$ due insiemi arbitrari e sia $X: \tilde{\Omega} \rightarrow \Omega$ una funzione. Se $\mathcal{A}$ è una Tribù su $\Omega$ allora:
$$ \tilde{\mathcal{A}} = \{ X^{-1}(A):A \in \mathcal{A} \} $$
è una Tribù su $\tilde{\Omega}$.
\subsection{Teorema 10}
Siano $\tilde{\Omega}$ e $\Omega$ due insiemi arbitrari e sia $X: \tilde{\Omega} \rightarrow \Omega$ una funzione. Se $\mathcal{A}$ è una Tribù su $\Omega$ allora:
$$ \tilde{\mathcal{A}} = \{ A \in \subseteq \Omega: X^{-1}(A) \in \tilde{\mathcal{A}}\} $$
\subsection{Teorema 12}
Ogni funzione contiuna oppure monotona crescente o decrescente $f:(\mathbb{R},\mathcal{B}(\mathbb{R})) \rightarrow (\mathbb{R},\mathcal{B}(\mathbb{R})) $ è una variabile aleatoria.
\section{Variabili aleatorie e funzioni di probabilità}
Il valore che assume la funzione $y = X(\omega): \Omega \rightarrow \mathbb{R}$ in corrispondenza di un esperimento è aleatorio in quanto dipende dal particolare risultato conseguito nell'esperimento \(\omega \in \Omega\); Ci si potrà chiedere con quale probabilità la funzione $X(\omega)$ assuma valore nell'intervallo $(a,b]$ cioè, dare un significato alla scrittura
\[ \text{Probabilità di} (a < X \leqslant b) = Pr(X \in (a,b]) = Pr(\{ \omega \in \Omega : a < X \leqslant b \}) \]
Si osservi a tale scopo che l'intervallo $(a,b]$ e l'insieme $A$
\[ A = \{ \omega \in \Omega : a < X(\omega) \leq b\} \in \mathcal{A} \]
sono in un certo senso equivalenti giacchè quando si verifica $A$, cioè $\omega \in \mathcal{A}$, allora $X \in (a,b]$ e viceversa. Dato che all'evento $A$ è assegnata $Pr(A)$, si potrà porre, per ogni $a<b$,
\[ Pr_X((a,b]) = Pr(X \in (a,b]) = Pr(\{ \omega \in \Omega : a < X \leqslant b \})\]
La funzione di probabilità $P_X$, definita sulla classe di Borel di $\mathbb{R}$, è nota col nome di distribuzione della v.a. $X$ e mediante essa sarà possibile determinare \\
$Pr_X((a,b]) = Pr(X \in (a,b]) = Pr(\{ \omega \in \Omega : a < X \leqslant b \})$
\section{Variabili aleatorie discrete}
Una v.a. $X$ definita su $(\Omega, \mathcal{A})$ è detta discreta se i valori distinti dell'insieme $\bigcup_{\omega \in \Omega} \{ {X(\omega)} \}$ costituiscono un insieme $R_X$ finito o numerabile.
\subsection{Funzione di probabilità (o densità discreta)}
Se $X$ è una v.a. discreta con $R_X = {x_1,x_2,\dots}$, allora la funzione, definita in $\mathbb{R}$, data da
\[
p(x) =
\begin{cases}
Pr(X = x_i) > 0 & x = x_i \in R_X \\
0 & x \not\in R_X
\end{cases}
\]
è detta funzione di probabilità (o densità discreta) della v.a.$X$, $R_X$ viene desso supporto della v.a. $X$.
\subsection{Teorema}
Se $X$ è una v.a. discreta con $R_X = \{ x_1,x_2,\dots \}$ allora
\[ p(x) \geq 0 \] per ogni x reale e \[ \sum_{x\in R_X} p(x) = 1 \]
\subsection{Distribuzione Binomiale}
Si dice che una v.a. $X$ si distribuisce secondo la distribuzione di probabilità (o legge) binominale di parametri $N \geq 1$ (intero) e $0 \leqslant p \leqslant 1$, se
\[
Pr(X = x) =
\begin{cases}
\binom{N}{x}p^x(1-p)^{N-x} & x = 0, 1, \dots, N \\
0 & altrimenti
\end{cases}
\]
E scriveremo $ X \sim Bi(N,p) $, dove $n$ è il numero di prove effettuate, e $p$ è la probabilità di successo della singola prova.
\subsubsection{In altre parole}
La distibuzione binomiale descrive la probabilità di avere esattamente $x$ successi, provando $N$ volte, con $p$ probabilità di vittoria di un singolo evento.
\subsubsection{Propietà}
\begin{itemize}
\item Media: $\mathbb{E}(X) = Np$
\item Varianza: $\mathbb{V}ar(X) = Np(1-p)$
\end{itemize}
\subsection{Funzione di ripartizione}
Sia $X$ una v.a.. Si dice funzione di ripartizione della v.a. $X$ la funzione $y=F(x)$, definita per ogni $x$ reale, data da
\[ F(x) = Pr(X \leqslant x) \quad x \in \mathbb{R} \]
\subsubsection{Funzione di ripartizione e funzione di probabilità}
Per una v.a. discreta, si osservi, a conferma delle propietà generali della funzione di ripartizione, come i punti di discontinuità di $F(x)$ coincidano con i punti di $R_X$ della v.a. e che l'ampiezza del salto in detti punti corrisponde alla funzione di probabilità, cioè
\[ p(X=x) = F(x) - F(X^-) \]
\subsection{Distribuzione Geometrica}
La distribuzione Geometrica nasce con riferimento allo stesso schema che ha condotto alla distribuzione Binomiale ma ora, anzichè contare il numero di successi in $N$ prove indipendenti, interessa il numero delle prove necessarie per ottenere il primo successo.\\
Si dice che una v.a. $X$ si distribuisce secondo una distribuzione geometrica di parametro $0 \leqslant p \leqslant 1$ se la sua funzione di probabilità è
\[
Pr(X=x)=
\begin{cases}
p(1-p)^{x-1} & x = 1,2,3,\dots \\
0 & altrove
\end{cases}
\]
e scriveremo $X \sim Ge(p)$.
\subsubsection{Propietà}
\begin{itemize}
\item Funzione di ripartizione: $F(x) = 1-(1-p)^x$
\item Momento secondo: $ \mathbb{E}(X^2) = \frac{2-p}{p^2} $
\item Varianza: $ \mathbb{V}ar(X) = \mathbb{E}(X^2) - [\mathbb{E}(X)]^2 = \frac{1-p}{p^2} $
\end{itemize}
\subsection{Distribuzione Binomiale negativa (o di Pascal)}
Si dice che una v.a. $X$ si distribuisce secondo la distribuzione binomiale negativa di parametri $0 < p \leqslant 1$ e $r \geq 1$ (intero) se la sua funzione di probabilità è data da
\[
Pr(X=x)=
\begin{cases}
\binom{x-1}{r-1} p^r (1-p)^{x-r} & x=r, r+1, r+2,\dots \\
0 & altrove
\end{cases}
\]
e indichiamo con $X \sim BiNe(r,p)$.
\subsubsection{In altre parole}
La distribuzione di Pascal dà la probabilità che siano necessari esattamente $x$ fallimenti per avere $r$ successi. $p$ è la probabilità di un singolo successo.
\subsubsection{Relazione tra Binomiale e Binomiale negativa (Teorema)}
Sia $X \sim BiNe(r,p)$ e $Z \sim Bi(N,p)$ allora
\[ Pr(Z \geq r) = Pr(X \leqslant N) \]
\subsection{Distribuzione di Poisson}
La distribuzione di Poisson (o poissoniana) è una distribuzione di probabilità discreta, che esprime le probabilità per il numero di eventi che si verificano successivamente e indipendentemente in un dato intervallo di tempo, sapendo che mediamente se ne verifica un numero $\lambda$.\\
Si dice che una v.a. $X$ si distribuisce secondo la distribuzione di Poisson di parametri $\lambda \geq 0$ se la sua funzione di probabilità è data da
\[ P(X = n) = \frac{\lambda^n}{n!}e^{-\lambda} \]
\subsubsection{Propietà}
\begin{itemize}
\item $\mathbb{E}(X) = \lambda $
\item $ \mathbb(V)ar(X) = \lambda $
\end{itemize}
Se $Y_1$ e $Y_2$ sono due variabili aleatorie indipendenti con distribuzioni di Poisson di parametri $\lambda_1$ e $\lambda_2$ rispettivamente, allora:
\begin{itemize}
\item la loro somma $Y = Y_1 + Y_2$ segue ancora una distribuzione di Poisson, di parametro $\lambda = \lambda_1 + \lambda_2$;
\item la distribuzione di $Y_1$ condizionata da $Y = n$ è la distribuzione binomiale di parametri $\frac{\lambda_1}{\lambda}$ e $n$.
\end{itemize}
\section{Variabili aleatorie continue}
Una v.a. $X$ definita su $(\Omega, \mathcal{A})$ è detta continua se la sua funzione di ripartizione è continua.
\subsection{Densità}
Si dice che la v.a. $X$ è dotata di densità se la probabilità con cui $X$ assume valori nell'intervallo $(a,b]$ è data mediante la formula
\[ Pr(X \in (a,b]) = Pr(a < X \leqslant b) = \int_{a}^{b} f(x) dx \]
in cui $f(x)$ prende il nome di funzione di densità di probabilità della v.a. $X$ e deve avere le seguenti caratteristiche
\begin{itemize}
\item $f(x) > 0$ per ogni $x \in \mathbb{R}$
\item $\int_{-\infty}^{+\infty} f(x) dx = 1$
\end{itemize}
\subsection{Variabili aleatorie assolutamente continue}
Una v.a. $X$ definita su $(\Omega, \mathcal{A})$ è detta assolutamente continua se la sua funzione di ripartizione è continua e la sua v.a. $X$ ammette densità.
\subsection{Densità e funzione di ripartizione}
Per una v.a. $X$ assolutamente continua con densità $f(x)$ e con funzione di ripartizione $F(x)$ abbiamo:
\[ Pr(X \in (a,b]) = \int_{a}^{b} f(x) dx = F(b) - F(a) \]
\subsection{Distribuzione Normale (o di Gauss)}
Si dice che una v.a. $X$ si distribuisce con legge di probabilità Normale (o Gaussiana) di parametri $-\infty < \mu < +\infty$ e $ 0 < \sigma < +\infty$ se possiede la seguente densità.
\[ f(x,\mu,\sigma) = \frac{1}{\sqrt{(2 \pi \sigma^2)}} e^{( -\frac{1}{2} \frac{(x-\mu)^2}{\sigma^2})} \]
e la indichiamo con $X \sim N(\mu, \sigma^2)$. La v.a. $X \sim N(0,1)$ è chiamata Normale Standard.
\subsubsection{Proprietà}
\begin{itemize}
\item Valore atteso: $\mathbb{E}(X) = \mu$
\item Varianza: $\mathbb{V}ar(X) = \sigma^2$
\end{itemize}
Se $X_1,X_2,...X_n$ sono $n$ variabili casuali Normali, tra loro indipendenti, ciascuna con valore atteso $\mu_i$ e varianza $\sigma^2_i$, allora\\
La variabile casuale $Y=a_1X_1 + a_2X_2 + ... + a_nX_n$ è a sua volta una variabile casuale Normale con valore atteso $\mu = a_1\mu_1 + a_2\mu_2 + ... + a_n\mu_n$ e varianza $ \sigma^2 = a^2_1\sigma^2_1 + a^2_2\sigma^2_2 + ... + a^2_n\sigma^2_n $
\subsection{Standardizzazione di una Normale}
Data una $X \sim N(\mu,\sigma^2)$, Allora
\[ Z = \frac{X-\mu}{\sigma} \sim N(0,1) \]
Questa operazione viene chiamata Standardizzazione
\subsection{Distribuzione Esponenziale}
Si dice che una v.a. $X$ ha legge Esponenziale con parametro $\lambda >0$ se la sua funzione di densità
\[
f(x;\lambda) =
\begin{cases}
\lambda e^{(-\lambda x)} & x > 0 \\
0 & altrove
\end{cases}
\]
e la indichiamo nel seguente modo $X \sim Exp(\lambda)$. La distribuzione Esponenziale è senza memoria.
\subsubsection{Propietà}
\begin{itemize}
\item Media: $\mathbb{E}(X) = \frac{1}{\lambda}$
\item Varianza: $\mathbb{V}ar(X) = \frac{1}{\lambda^2}$
\item Funzione di ripartizione: $F(x) = 1-e^{-\lambda x}$
\item Il minimo $Y = min\{X_1,\dots,X_n\} $ tra $n$ variabili aleatorie indipendenti con distribuzioni esponenziali di parametri $ \lambda_1,\dots,\lambda_n $ è ancora una variabile aleatoria con distribuzione esponenziale, di parametro $ \lambda = \lambda_1 + \dots + \lambda_n$.
\end{itemize}
\subsection{Trasformazione di variabili aleatorie p.104 (manca)}
\section{Speranza matematica o valore atteso per v.a. discrete}
Sia $X$ una v.a. discreta con funzione di probabilità $p_X(x)$. Allora, si chiama speranza matematica di $X$ la quantità (finita)
\[ \mathbb{E}(X) = \sum_{x \in R_X} x p_X(x) \]\\
Sia $X$ una v.a. dotata di densità $f_X(x)$ e funzione di ripartizione $F_X(x)$. Si chiama speranza matematica di $X$ la quantità (finita).
\[ \mathbb{E}(X) = \int_{-\infty}^{+\infty} x f_X(x) dx \]
\section{Momenti}
Data la v.a. $X$ si dice momento non centrato di ordine $r$ (intero positivo) il valore
\[ \mu_r = \mathbb{E}(X^r)\]
e si dice momento centrato dalla media di ordine r
\[ \bar{\mu_r} = \mathbb{E}((x-\mu_1)^r) \]
\subsubsection{Valori di sintesi basati sui momenti}
\begin{itemize}
\item Media: $ \mu = \mu_1 = \mathbb{E}(X) $
\item Varianza: $ \mathbb{V}ar(X) = \sigma^2 = \bar{\mu_2} = \mathbb{E}((x-\mu_1)^2) = \mathbb{E}(X^2) - \mathbb{E}(X)^2 $
\item Deviazione standard: $ \sigma = \sqrt{\sigma^2} $
\end{itemize}
\chapter{Variabili Aleatorie Doppie}
Sia $(\Omega, \mathcal{A}, Pr)$ uno spazio probabilizzato. Siano $X(\omega)$ e $Y(\omega)$ due v.a. definite su $\Omega$ in modo che:
\[ Z(\omega) = (X(\omega),Y(\omega)) : \Omega \rightarrow \mathbb{R}^2 \]
$Z(\omega)$ è detta v.a. doppia e $R_Z = R_{X,Y} = \{(x,y):x \in R_X,y \in R_Y\}$\\
Resta da definire la funzione di probabilità di $Z(\omega)$. Le funzioni di ripartizione $F_X(x)$ e $F_Y(y)$ di $X$ e $Y$ rispettivamente, in genere non sono sufficienti per determinare tale propietà.
E' necessario considerare la seguente funzione di ripartizione (detta congiunta)
\[ F_Z(z) = F_{X,Y}(x,y) = Pr(\{ X \leqslant x\} \cap \{ Y \leqslant y \}) \quad\quad (x,y)\in R_{X,Y} \]
\section{Funzione di probabilità congiunta (discreta)}
Per due v.a. discrete $X$ e $Y$, la v.a. doppia $Z=(X,Y)$ (che è discreta) ha funzione di probabilità (congiunta)
\[
P_Z(z) =
\begin{cases}
p_{X,Y}(x,y) = Pr(\omega : \{ X(\omega) = x \} \cap \{ Y(\omega) = y \}) & (x,y) \in R_{X,Y}\\
0 & altrove
\end{cases}
\]
\section{Variabili aleatorie doppie dotate di densità}
La v.a. doppia $Z= (X,Y)$ si dirà dotata di densità se esiste una funzione $f_{X,Y}(x,y)$ tale che
\begin{itemize}
\item $f_{X_Y}(x,y) \geq 0, \quad \forall (x,y) \in \mathbb{R}^2$
\[ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f_{X,Y}(x,y)\: dx\: dy \]
\item \[Pr(a < x \leqslant b, c < y \leqslant d) = \int_{-\infty}^{x}\int_{-\infty}^{y} f_{X,Y}(u,v)\: du\: dv \]
\end{itemize}
tale funzione è chiamata densità congiunta $f_Z(z) = f_{X,Y}(x,y)$.
\subsection{Densità marginali}
Dalle formule di prima abbiamo che
\[ F_{X,Y}(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y} f_{X,Y}(u,v)\: du\: dv\]
E quindi
\begin{itemize}
\item Densità marginale della v.a. $X$ \[f_X(x) = \int_{-\infty}^{+\infty} f_{X,Y}(x,v)\: dv\]
\item Denstià marginale della v.a. $Y$ \[f_Y(y) = \int_{-\infty}^{+\infty} f_{X,Y}(u,y)\: du\]
\end{itemize}
\section{Distribuzioni condizionali per v.a. (Probabilità condizionale di $X|Y = y$)}
Sia $(X,Y)$ una v.a. doppia discreta con funzione di probabilità
\[ p_{X,Y}(x,y) = Pr(X = x, Y = y) \]
allora in accordo con la definizione di probabilità condizionale
\[ p_{X_Y}(X=x|Y=y) = Pr(\{ X=x \}|\{ Y=y \}) = \frac{p_{X,Y}(x,y)}{p_Y(y)} \quad y \in R_Y(p_Y(y)>0) \]
Per ogni valore fissato di $y \in R_Y$ la funzione $p_{X|Y}(X=x|Y=y)$ prende il nome di probabilità condizionale di $X|Y = y$
\section{Distribuzioni condizionali e indipendenza per v.a. (p137 dispense B)}
\section{Funzioni di ripartizioni condizionali}
Dalla funzione di probabilità confizionale (nel caso discreto) e dalla densità condizionale (nel caso assolutamente continuo), possiamo costruire le funzioni di ripartizione condizionale
\[ F_{X|Y}(x|y) = \sum_{u \leqslant x \: : \: \in R_X} p_{X|Y}(u|y) \]
e
\[ F_{X|Y}(x|y) = \int_{-\infty}^{x} f_{X|Y}(u|y) \: du \]
\section{Variabili aleatorie condiionali e speranza matematica}
Data la v.a. doppia $(X,Y)$ allora la funzione $X|Y = y \: (y \in R_Y)$ è una v.a. con funzione di probabilità $P_{X|Y}(x|y)$.
Quindi alla definizione di speranza matematica e di varianza abbiamo
\[\mathbb{E}(X|Y=y)= \quad \sum_{x \in R_X} x p_{X|Y}(x|y) \]
\[ var(X|Y=y)= \quad \sum_{x\in R_X}(x - \mathbb{E}(X|Y=y))^2 p_{X|Y}(x|y) \]
e in maniera del tutto analoga nel caso di v.a. dotate di densità.
\section{Speranza matematica della speranza matematica condizionale}
Ad esempio per v.a. doppie discrete (??il risultato vale nel caso generale??)
\[ \mathbb{E}(\mathbb{E}(X|Y)) = \mathbb{E}(X) \]
\section{Varianza e Varianza condizionale (Scomposizione della varianza)}
Sia $(X,Y)$ una v.a doppia, allora
\[ \mathbb(V)ar(X) = \mathbb{E}(\mathbb{V}ar(X|Y)) + \mathbb{V}ar(\mathbb{E}(X|Y)) \]
\section{Dipendenza in media}
La v.a. $X$ si dice indipendente in media da $Y$ se
\[ \mathbb{E}(X|Y=y) = \mathbb{E}(X) \quad \forall y \in R_Y \]
Si noti che se $X$ è indipendente stocasticamente da Y allora è anche indipendente in media. Viceversa non è vero, in generale.
\section{Rapporto di correlazione}
Sia $(X,Y)$ una v.a. doppia discreta, si chiama rapporto di correlazione di $X$ dato $Y$
\[
\eta^2_{X\mid Y} =
\]
\[
\frac{ \mathbb{V}ar(\mathbb{E}(X \mid Y)) }{ \mathbb{V}ar(X) } =
\]
% 1- \frac{\mahtbb{E}(\mathbb{V}ar(X\mid Y))}{\mathbb{V}ar(X)} \quad \mathbb{V}ar(X) > 0\]
E in modo analogo si definisce $\eta_{X|Y}^2$. Dalla formula della scomposizione della varianza è facile vedere che:
\[ 0 \leqslant \eta_{X|Y}^2 \leqslant 1 \]
inoltre
%Elenco puntato invece che numerato
\begin{itemize}
\item se $\eta_{X|Y}^2 = 0$ allora $X$ è indipendente in media da $Y$
\item se $\eta_{X|Y}^2 > 0$ allora $X$ è indipendente in media da $Y$
\item $\eta_{X|Y}^2 = 1$ se e solo se $Pr(X = \mathbb{E}(X|Y)) = 1$
\end{itemize}
%modificare il simbolo di prodotto con uno più decente
\section{Covarianza e correlazione}
La covarianza e la correlazione sono altri due indici di dipendenza (lineare) tra due v.a.
\[ cov(X,Y) = \mathbb{E}(X * Y) - \mathbb{E}(X) * \mathbb{E}(Y) \]
mentre
\[ \rho(X,Y) = \frac{cov(X,Y)}{\sqrt{\mathbb{V}ar(X)*\mathbb{V}ar(Y)}} \]
\section{Varianza di una combinazione lineare di v.a}
Sia $(X,Y)$ una v.a. doppia e $a$ e $b$ due costanti. Allora
\[ \mathbb{V}ar(aX + bY)= a^2\mathbb{V}ar(X) + b^2\mathbb{V}ar(Y) + 2abcov(X,Y) \]
%Skippato il chi^2 di pearson p.143 disp. B
\chapter{Teoremi limite della probabilità}
\section{Convergenza in probabilità (o debole)}
Ci sono diversi modi per esprimere il fatto che $S_n/n$ si avvicina a $p$. Potremmo ad esempio scrivere che, per $n$ grande e per $\epsilon$ piccolo a piacere
\[ Pr\{ |S_n/n -p| \geq \epsilon \} \approx 0 \]
o equivalentemente
\[ \lim_{n \rightarrow +\infty} Pr\{ |S_n/n -p| \geq \epsilon \} = 0 \]
in simboli questo tipo di convergenza si denota con
%Trovare come scrivere la p sopra la freccia
\[ p \]
\[ S_n/n \longrightarrow \mu \]
e si legge \textbf{converge in probabilità (o in senso debole)} ad una v.c. $Y$ se, per ogni $\epsilon > 0$,
\[ \lim_{n \to \infty} Pr(|Y_n - Y| \geq \epsilon) = 0, \]
ovvero
\[ \lim_{n \to \infty} Pr(|Y_n - Y| \leqslant \epsilon) = 1, \]
\section{Convergenza in media quadratica}
Un'altra formalizzazione del concetto di "vicinanza" potrebbe richiedere che in media gli scostamenti (al quadrato) di $S_n/n$ da $p$ siano piccoli, quando $n$ è grande:
\[\mathbb{E}[(S_n/n - p)^2] \approx 0, \]
o equivalentemente
\[ \lim_{n \to \infty} \mathbb{E}[(S_n/n - p)^2] = 0. \]
In simboli questo tipo di convergenza si denota con
%mettere m.q. sopra la freccia
\[ m.q. \]
\[ S_n/n \longrightarrow p \]
e si legge "\textbf{converge in media quadratica}".\\
Più in generale diremo che una successione $Y_1,Y_2,\dots$ \textbf{converge in media quadratica} ad una v.c. $Y$ se
\[ \lim_{n \to \infty} \mathbb{E}[(Y_n - Y)^2] = 0. \]
\subsubsection{Proposizione}
La convergenza in media quadratica implica la convergenza in Probabilità:
\[ m.q. \quad \quad \quad P\]
\[ Y_n \rightarrow Y \Rightarrow Y_n \rightarrow Y \]
\section{Disuguaglianza di Markov}
Sia $Y$ una v.c. che assume valori non negativi allora per ogni numero reale $a>0$
\[ Pr(Y \geq a) \leqslant \frac{\mathbb{E}(Y)}{a} \]
\section{Disuguaglianza di Chebychev}
Sia $Y$ una v.c. con valore atteso $\mathbb{E}(Y) = \mu$ e varianza $\mathbb{V}ar(Y) = \sigma^2$. Allora
\[ Pr(|Y-\mu| \geq \epsilon) \leqslant \frac{\sigma^2}{\epsilon^2} \]
\section{Somme di variabili casuali}
\subsubsection{Proposizione}
Siano $Y_1,\dots,Y_n$ v.c. con valore atteso rispettivamente $\mu_1,\dots,\mu_n$. allora
\[ \mathbb{E}(Y_1 + \dots + Y_n) = \mu_1 + \dots + \mu_n \]
\subsubsection{Proposizione}
Siano $Y_1,\dots,Y_n$ v.c. indipendenti con varianza $\sigma_1^2, \dots, \sigma_n^2$ rispettivamente. Allora
\[ \mathbb{V}ar(Y_1 + \dots + Y_n) = \sigma_1^2 + \dots + \sigma_n^2 \]
\subsubsection{Proposizione}
Siano $Y_1,\dots,Y_n$ v.c. indipendenti, tutte con valore atteso $\mu$ e varianza $\sigma^2$ e sia $\overline{Y}_n = \sum_{i = 1}^n Y_i/n.$ Allora
\[ \mathbb{E}(\overline{Y}_n) = \sum_{i = 1}^n \frac{\mathbb{E}(Y_i)}{n} = n\frac{\mu}{n}= \mu,\]
\[ \mathbb{V}ar(\overline{Y}_n)= \sum_{i=1}^n \frac{\mathbb{V}ar(Y_i)}{n^2} = n\frac{\sigma^2}{n^2} = \frac{\sigma^2}{n}. \]
\section{Legge debole dei grandi numeri}
Sia $Y_1, Y_2, \dots$ una successione di v.c. indipendenti, ciascuna con valore atteso $\mu$ e varianza $\sigma^2$. Allora, per ogni $\epsilon > 0$,
\[ lim_{n \to \infty} Pr\{ |\overline{Y}_n -\mu| \geq \epsilon \} = 0 \]
%aggiungere P sopra la freccia
ovvero $\overline{Y}_n \rightarrow \mu$
p.151
\end{document}