Izdevuma Guardian digitālo projektu redaktorei Helēnai Bengtsonei (Helena Bengtsson) nepatīk apziemējums „lieli dati”. „Es nerunāju par lieliem datiem,” viņa teica nesen notikušajā konferencē Big Data for Media, kas notika Google Londonas birojā. „Es strādāju ar lieliem datiem. Lielie dati ir kompleksi un tos nav iespējams apstrādāt ar tradicionāliem rīkiem.”
Bengtsone stāstīja par dažādiem piemēriem, kur lieli, plaši un nelieli datu masīvi ir izmantoti žurnālistikas materiālu veidošanai Guradian izdevumā un citos medijos.
Kā pirmo viņa minēja Reading the Riots (Nemieru lasīšana), projektu, kura īstenošanā sadarbojās Guardian un Londonas Ekonomikas skola un kura ietvaros tika analizēti 2,5 miljoni tvītu, kas bija publicēti 2011.gada Londonas nemieru laikā.
Viņa minēja arī starptautiskās bezpeļņas pētnieciskās žurnālistikas organizācijas The Center for Public Integrity datu žurnālistikas projektu Cracking the Codes (Kodu uzlaušana). Izmantojot datus, kas tika iegūti no 84 miljoniem pretenziju par ASV sniegto veselības aprūpi, atklājās, ka daļa medicīnas pakalpojumu sniedzēju tos pašus pakalpojumus sniedz par augstākām likmēm nekā citi.
Bengtsone analizēja arī projektu, ko, balstoties uz plašu datu masīvu apstrādi, veikusi Japānas sabiedriskā televīzija NHK. Projekts sastāvēja no vairākām dokumentālo raidījumu sērijām, kas bija balstītas uz „katastrofu datiem”, kas apkopoti 2011.gadā Japānā notikušās zemestrīces un cunami laikā. NHK analizēja katastrofas seku novēršanas darbu norisi, tai skaitā, demogrāfiskās tendences, ko atklāja mobilo ierīču signāli. Šie signāli parādīja, kur cilvēki dzīvoja pirms un pēc katastrofas, kas prasīja kopumā 20 000 cilvēku dzīvības. Datu žurnālisti ievāca un analizēja informāciju arī no 750 000 uzņēmumu datoriem. Tas atklāja, ka 20 000 biznesa kontaktu zemestrīces rezultātā bija pārtrūkuši. Žurnālisti analizēja arī transporta kustību īsi pēc katastrofas, izmantojot GPS navigācijas sistēmu signālus. Bengtsone norādīja, ka, lai arī tas bija piemērs ļoti augstvērtīgai datu žurnālistikai, NHK bija piekļuve datiem, kas normālos apstākļos žurnālistiem nebūtu pieejami.
Dati, ko piedāvā Irākas kara ierakstu žurnāli, Bengtsones vārdiem sakot „ir visaizraujošākā datubāze, ar kuru es jebkad esmu strādājusi”. „Mēs to analizējām ar tradicionālām un netradicionālām metodēm,” viņa norādīja. Katrā ziņā „viens no iemesliem, kāpēc es mīlu datu žurnālistiku, ir tas, ka tā ļauj atrast adatu siena kaudzē. Tā ir drīzāk stāsta un detaļu atrašana, nevis tendenču saskatīšana”. „Mēs noteikti būtu atraduši vairāk interesantu stāstu WikiLeaks datos, ja mūsu rīcībā toreiz būtu bijuši tādi rīki, kādi ir mūsu rīcībā šodien,” norādīja Bengtsone.
Jautāta, kā pārliecināt žurnālistus nebaidīties no lieliem datu masīviem, Bengtsone norādīja: „Es nezinu, kāpēc žurnālistiem šķiet, ka tas viņiem varētu būt par grūtu. Man ir grūti saprast, kā var būt tā, ka žurnālisti uzņemas kompleksu jautājumu aprakstīšanu, taču, kad tu viņiem mēģini iemācīt saprast Excel 5 dokumentus, viņi krīt panikā.” Ņemot vērā, ka datu žurnālistika tomēr tiek arvien plašāk praktizēta visā pasaulē, viņa cer, ka žurnālisti arvien vairāk to sāks novērtēt. „Jo mums vajag arvien jaunus stāstus,” viņa teica.
Raksts sākotnēji publicēts kā blogs no INMA Big Data Conference, 2015.gada 26., 27.martā.
Foto kredīts: Aynur Simsek, INMA
Atslēgvārdi:datu žurnālistika, Gurdian, lieli dati, lielu datu apjomu analīze