-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathodu.html
285 lines (201 loc) · 9.23 KB
/
odu.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="" xml:lang="">
<head>
<title>L’open data, c’est quoi ?</title>
<meta charset="utf-8" />
<meta name="author" content="Clément Mandron, Datactivist" />
<script src="libs/header-attrs-2.25/header-attrs.js"></script>
<link href="libs/remark-css-0.0.1/default.css" rel="stylesheet" />
<link href="libs/remark-css-0.0.1/datactivist.css" rel="stylesheet" />
<link href="libs/remark-css-0.0.1/datactivist-fonts.css" rel="stylesheet" />
</head>
<body>
<textarea id="source">
class: center, middle, inverse, title-slide
# L’open data, c’est quoi ?
## Open Data University saison 2
### Clément Mandron, Datactivist
### 12 mars 2024
---
layout: true
<div class='my-footer'><span>Open Data Univerisy Saison 2</span> <center><div class=logo><img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/fond_noir_monochrome.png' width='100px'></center></span></div>
---
class: center, middle
Ces slides en ligne : http://datactivist.coop/opendatauniversity
Sources : https://github.com/datactivist/opendatauniversity
Les productions de Datactivist sont librement réutilisables selon les termes de la licence [Creative Commons 4.0 BY-SA](https://creativecommons.org/licenses/by-sa/4.0/legalcode.fr).
<BR>
<BR>
![](https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-sa.png)
---
<img src='https://github.com/datactivist/slides_datactivist/raw/master/inst/rmarkdown/templates/xaringan/resources/img/logo.png' width='320px'>
### We .red[open data], we make them .red[useful]
![](./img/equipe.png)
---
class: inverse, center, middle
# L'open data, c'est quoi ?
---
## Open data : définition
Selon Wikipedia, une donnée ouverte c'est :
> une donnée numérique, d'origine publique ou privée, publiée de manière structurée selon une méthodologie qui garantit son libre accès et sa réutilisation par tous, sans restriction.
**L'ouverture des données est à la fois un mouvement, une philosophie d'accès à l'information et une pratique de publication de données** librement accessibles et exploitables.
---
## Des données ouvertes, pour être réutilisées
.pull-left[
![](./img/dgf.png)
]
.pull-right[
![](./img/covid.png)]
---
## .red[Les 8 principes] de l'open data
1/ **Des données complètes** : toutes les données publiques doivent être rendues disponibles dans les limites légales liées à la vie privée ou la sécurité.
2/ **Des données primaires** : les données ouvertes sont telles que collectées à la source, non-agrégées avec le plus haut niveau de granularité
3/ **Des données fraiches (*timely*)** : les données doivent être disponibles dès qu'elles sont produites
4/ **Des données accessibles** : les données doivent être utilisables par le plus grand nombre d’usagers potentiels
---
## .red[Les 8 principes] de l'open data
5/ **Des données exploitables par les machines** : Les données peuvent être traitées automatiquement par les machines
6/ **Des données non discriminatoires** : Elles peuvent être utilisées par tous sans réclamer un enregistrement préalable
7/ **Des données dans un format ouvert** : Ce format ne doit pas être la propriété d'une organisation en particulier (.xls) et doit être gouverné par ses usagers (exemple : CSV)
8/ **Des données dans une licence ouverte** : Idéalement dans le domaine public sinon dans une licence conforme à l'[Open Definition](https://opendefinition.org/od/2.1/en/) : Licence Ouverte (CC-BY) ou ODBL (CC-BY-SA)
---
### Loi pour une République Numérique : l'ouverture des données par défaut
.pull-left[
La [loi pour une République Numérique](https://www.legifrance.gouv.fr/affichTexte.do;jsessionid=B5632993E54F7CCC2606664B64CDF612.tpdila11v_1?cidTexte=JORFTEXT000033202746&categorieLien=id) impose un principe d'.red[**ouverture des données par principe**] qui ne fait pas l'objet de sanctions à toutes les administrations, les entreprises délégataires d'une mission de service public et les .red[**collectivités locales de plus de 3500 habitants et 50 agents**].
]
.pull-right[
![](./img/lrn.png)
]
---
class: inverse, center, middle
# Trois choses qui n'existeraient pas sans l'open data
---
## 1. Yuka
.pull-left[
- 25 millions d'utilisateurs
- 35 scans de produits par seconde
- Top 50 des applis gratuites sur l'Appstore et le Playstore
- 2 million € de CA en [2022](https://www.pappers.fr/entreprise/yuca-817769466)
]
.pull-right[
![](./img/logo_yuka.png)
]
???
Trois sources de revenus (wikipedia) :
- fremium (70%). exemple accès hors ligne
- vente calendrier produit de saison (20%)
- vente d'un programme nutrition (10%)
En 2017, Yuka s'appuyait exclusivement sur Open Food Facts
À partir de janvier 2018, une base de données propriétaire est mise en place pour ajouter un système de contrôle et de vérification des contributions
La base de données de Yuka continue à être alimentée par les contributions des utilisateurs à travers l’application. De plus, les industriels partagent aussi les informations de leurs produits14, grâce à la plate-forme Alkemics
Reste premier contributeur d'OFF
---
[.center[![](./img/off.png)]](https://fr.openfoodfacts.org/decouvrir)
???
Derrière OFF, une association commun numérique, gouvernance partagée, données en ODBL
---
## 2. Les applis de mobilité
.center[.reduite[![](./img/CityMapper.png)]]
---
## 2. Les applis de mobilité
.center[.reduite[![](./img/stan.png)]]
---
## 3. ChatGPT
![](./img/sandwich.png)
???
Sans CommonCrawl = les données d'entrainement dans les mains d'un nombre réduit de personnes
ChatGPT et les autres LLM sont entraînés sur des données ouvertes. Par exemple Wikipedia. Mais aussi CommonCrawl
CommonCrawl : biais, souvent des versions mal-filtrées sont utilisées
Popular Common Crawl versions is often limited to removing pornography and relies on simple keyword lists or AI classifiers trained on user generated content that can itself be problematic
---
class: inverse, center, middle
# Merci !
Contact : [[email protected]](mailto:[email protected])
</textarea>
<style data-target="print-only">@media screen {.remark-slide-container{display:block;}.remark-slide-scaler{box-shadow:none;}}</style>
<script src="https://remarkjs.com/downloads/remark-latest.min.js"></script>
<script>var slideshow = remark.create({
"highlightStyle": "github",
"highlightLines": true,
"countIncrementalSlides": false
});
if (window.HTMLWidgets) slideshow.on('afterShowSlide', function (slide) {
window.dispatchEvent(new Event('resize'));
});
(function(d) {
var s = d.createElement("style"), r = d.querySelector(".remark-slide-scaler");
if (!r) return;
s.type = "text/css"; s.innerHTML = "@page {size: " + r.style.width + " " + r.style.height +"; }";
d.head.appendChild(s);
})(document);
(function(d) {
var el = d.getElementsByClassName("remark-slides-area");
if (!el) return;
var slide, slides = slideshow.getSlides(), els = el[0].children;
for (var i = 1; i < slides.length; i++) {
slide = slides[i];
if (slide.properties.continued === "true" || slide.properties.count === "false") {
els[i - 1].className += ' has-continuation';
}
}
var s = d.createElement("style");
s.type = "text/css"; s.innerHTML = "@media print { .has-continuation { display: none; } }";
d.head.appendChild(s);
})(document);
// delete the temporary CSS (for displaying all slides initially) when the user
// starts to view slides
(function() {
var deleted = false;
slideshow.on('beforeShowSlide', function(slide) {
if (deleted) return;
var sheets = document.styleSheets, node;
for (var i = 0; i < sheets.length; i++) {
node = sheets[i].ownerNode;
if (node.dataset["target"] !== "print-only") continue;
node.parentNode.removeChild(node);
}
deleted = true;
});
})();</script>
<script>
(function() {
var links = document.getElementsByTagName('a');
for (var i = 0; i < links.length; i++) {
if (/^(https?:)?\/\//.test(links[i].getAttribute('href'))) {
links[i].target = '_blank';
}
}
})();
</script>
<script>
slideshow._releaseMath = function(el) {
var i, text, code, codes = el.getElementsByTagName('code');
for (i = 0; i < codes.length;) {
code = codes[i];
if (code.parentNode.tagName !== 'PRE' && code.childElementCount === 0) {
text = code.textContent;
if (/^\\\((.|\s)+\\\)$/.test(text) || /^\\\[(.|\s)+\\\]$/.test(text) ||
/^\$\$(.|\s)+\$\$$/.test(text) ||
/^\\begin\{([^}]+)\}(.|\s)+\\end\{[^}]+\}$/.test(text)) {
code.outerHTML = code.innerHTML; // remove <code></code>
continue;
}
}
i++;
}
};
slideshow._releaseMath(document);
</script>
<!-- dynamically load mathjax for compatibility with self-contained -->
<script>
(function () {
var script = document.createElement('script');
script.type = 'text/javascript';
script.src = 'https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-MML-AM_CHTML';
if (location.protocol !== 'file:' && /^https?:/.test(script.src))
script.src = script.src.replace(/^https?:/, '');
document.getElementsByTagName('head')[0].appendChild(script);
})();
</script>
</body>
</html>