Hogy olvassa a számítógép a könyveket? – Nemzetközi Digitális Bölcsészet Konferencia

Informatika és bölcsészet? A kettő együtt volt jelen a Trefort-kertben a Nemzetközi Digitális Bölcsészet Konferencián.

Szeptember 25. és 27. között az ELTE Trefort-kerti kampuszát neves külföldi és magyar kutatók lepték el, hogy megosszák legújabb eredményeiket a digitális bölcsészet interdiszciplináris tudományterületén. Az ELTE digitális bölcsészettel foglalkozó központja által szervezett konferenciára az egész világról érkeztek kutatók. A következő cikkben amellett, hogy a rendezvény egyes előadásairól és felmerülő gócpontjairól tudósítunk, néhány központi szakkifejezésre összpontosítva próbáljuk megragadni a 21. századi bölcsészet értelmét és célját. De mindezek előtt tegyük fel a kérdést: mi is az a digitális bölcsészet?

A digitális bölcsészet (digital humanities – DH) alapvetően a bölcsészettudományok és a kifejezetten ezek támogatására létrejött informatika kapcsolatát jelenti. A számítógép számolási kapacitását kihasználva ez a fiatal tudományág számokban kifejezhető kérdésekre keresi a választ. Az új módszerek a klasszikus kutatásokokat is segíthetik, de az új nézőpont új területeket is nyithat a bölcsészettudományok mezején. Az irodalmi szövegek digitalizálása már az első számítógép megjelenésekor megjelent, ez a lelkesedés azóta csak fokozódott. A digitális bölcsészet elsősorban a gyakorlatban érvényesül, de ezt támogatja az elméleti kutatás is.

71144658_2442697339347970_6948737428244922368_o

Távoli olvasás, avagy distant reading

Az egyik leggyakrabban előkerülő kifejezés a konferencián az ún. distant reading. Lényege a nagy mennyiségű szövegek közti kapcsolat megtalálása, emberi léptékkel feldolgozhatatlan mennyiségű szöveg elemzése. Ez a módszer alapvetően szemben áll a klasszikus irodalomtudomány „close reading”-jével. A fő metodika korábban ugyanis a kánonteremtés, vagyis néhány szerző néhány kiemelt szövegével való tüzetes foglalkozás. Az emberi kapacitás határain belül mozgó szoros olvasással szemben a távoli olvasás minél nagyobb mennyiségű szöveg statisztikai elemzését tűzte ki célul; ciklusok, mintázatok, visszatérő jelenségek vizsgálatát teszi lehetővé.

Ezt a metódust alkalmazza Ilyefalvi Emese a kutatásában, amit a Szóbeli áldások távoli olvasása című előadásában foglalt össze. Egyetemünk doktorandusza a szóbeli áldások leggyakoribb szavait vizsgálta. Az első tíz leggyakoribb szó mind vallásos töltetű: Isten, Krisztus, áldott, szent, Jézus, stb. Azonban van egy kivétel, ez pedig a szemek vagy a szép szemek fogalma. A kutatás során kiderült, hogy ez a kifejezés szoros összefüggésben van az árpával, és időben meghatározhatóan később került be a folklórba. Az együttállás pedig a szemárpa betegségére utal. A kutatás során a digitalizált áldások száma 6000-re nőtt a korábbi 1712-höz képest. A cél az volt, hogy egy többdimenziós digitális adatbázist hozzanak létre, ahol a későbbi érdeklődők szabadon keresgélhetnek az igék között. A rendszer 2013 és 2018 között bővült az ELTE és az MTA égisze alatt, és olyan metaadatokat (azaz az adatokról szóló adatokat) is tartalmaz, mint például a szöveg születésének helye és ideje.

Hazánk másik képviselője volt a konferencián Péter Róbert, aki a Szegedi Egyetem kutatója. Témája a 18. századi angol újságok távoli olvasása. Előadásában az optikai szövegfelismerés, vagyis az OCR hiányosságai is előkerültek. Az OCR hiába automatizálja a kutatás unalmas részét, sajnos a karaktereket csak 75%-os pontossággal ismeri fel, míg a szavakat 65%-os pontossággal. A probléma a sérült, vagyis zajos lapok esetében a legszámottevőbb. A kutatás további és nagyívű célja a teljes adatállomány zajmentesítése, valamint a digitalizált korpusz összelinkelése más, korábban is létező és külső forrásokkal. Ez egy hatalmas digitális hálózatot jelentene, amiben bármit el lehet érni, nem kellene külön adatbázisokban kutatni. A digitális adatbázis esetleges felhasználására is említett egy példát az előadó. Magyarország említéseiből a 18. századi brit újságokban visszakereshető például a hamuzsír-kereskedelem (ez a mai nevén kálium-karbonát), amivel a két ország kereskedelmi térképét bővíthetik a történészek.

Digital Humanities_1

Hasonló elemzési módszerrel közelít Anna Moskvina az online könyvkritikákhoz a németországi Hildesheim Egyetemről. Az internetes média teljesen megváltoztatta az emberek gondolkodását, és ez a könyvolvasás és a könyvkritika területén is megjelenik. Manapság már bárki lehet és lesz is kritikus, ami egy (megint csak) hatalmas adatmennyiséget jelent. Moskvina ezt a szövegkorpuszt vizsgálja több rétegben. Elkülöníti a kritika tartalmát, vagyis a szerző, a karakterek, a cselekmény jellemzését és értékítéletét a kritika írójának stílusától. A feldolgozott adatokban ún. mintázatokat keres. Ezekből a mintázatokból kimutatható a különbség egy ember és egy autobot által írt szövegből, vagy a szóhasználat, a mondatszerkezet vizsgálata alapján akár egy profi és egy blogger által írt könyvkritika esetében is.

Az írott szövegen túl – closed caption

Az eddig kiemelt előadók az írott szövegeket vizsgáltak. Minako Nakamura és Kohji Shibano a japán TV-programok beszélt nyelvével foglalkozik edukációs célzattal. A televíziós programokban elhangzó szavakat először textualizálni kell. Erre alkalmas a closed captioning technikája, ami hasonlóan működik, mint a Youtube feliratozó automatája. A kutató elmondása szerint a TV-programok fele rendelkezik egyelőre closed caption felirattal, ami számokban kifejezve 75 ezer órányi anyagot jelent és mintegy 500 millió szót. Mondanom sem kell, hogy a program megalkotása sok évet vett igénybe; a rendszer 2012-től használható. A programmal kapott szöveget már a számítógép is tudja kezelni, így különböző statisztikai kérdésekre könnyedén megkapjuk a választ. Shibano példája ilyen statisztikai kérdésre az volt, hogy melyik a japán nyelvben leggyakrabban használt angol kifejezés; ez a thank you, tehát köszönöm.

Amikor belépsz a kutatásba – Gephi

A szövegek elemzésén túl a digitális bölcsészet tárgykörébe tartozik a szöveggyűjtemények (corpora) vizualizációja is. Több kutató erre a célra az ún. Gephi-vizualizációt használja. A Gephi egy hálózatkezelő szoftver, ami a betáplált adatok alapján összeköti a kapcsolódó pontokat. Helyenként egészen komplex hálózatok vizsgálatát teszi lehetővé ez a hasznos szoftver, hiszen előtte csupán a görgethető Excel-táblázat volt a kutatók számára elérhető. Na de nézzük az előadók példáit!

A Gephi a használatban

A Gephi a használatban

A svéd krimi elterjedését és annak okait vizsgálja Ovio Olaru. Több különböző kvantitatív módszerrel vizsgálta a „swedenskrimi” jellemzőit és a közönség pozitív fogadtatását. Az egyik fontos aspektus a fordítás volt: a Romániából érkezett kutató a Gephi segítségével a 2004 és 2017 között lefordított skandináv fikciós krimi műfajába tartozó műveket vizsgálta a fordítás helye szerint. Így a hálózatdiagram gócpontjai a skandináv krimi iránt leginkább érdeklődő országok nagyvárosaiban keletkeztek. A fiatal előadó elmondta, teljesen más, mikor az ember beléphet a saját kutatásába.

Egy másik szemléltető példát szolgáltat Gregory H. Gilles brit előadó kutatása. Gilles a késő római kor női rokoni kapcsolatait vizsgálta. A kutatás kiindulópontja egészen praktikus: egy női személyhez akár 6 különböző forrás is tartozhat a házasságok, gyermekszülés és özveggyé válás szerint. Gilles kutatása ezt a széteső adatbázist hivatott egységesíteni. A nagyérdeműnek Julius Caesar feleségeinek rokonsági hálózatát mutatta. A hálózatdiagramok segítségével feltehetően könnyebben válaszolhatóak majd meg olyan kérdések, mint hogy felelős marad-e egy elvált nő a gyerekeiért, ha a férj újraházasodik.

A fentiekben csupán néhány kiragadott képet mutattunk be egy növekvő fontosságú tudományterület konferenciájáról. A digitális bölcsészet felkarolásából is látszik, hogy az ELTE keresi az innovatív és progresszív lehetőségeket. Ez esetben is egy sikeres konferenciát tudhat az egyetem maga mögött, hiszen a világ minden tájáról érkeztek kutatók, nem elhanyagolva a hazai tudósokat.

A kiemelt kép forrása

A beillesztett képek: itt, itt és a gif forrása

[sam id="10" name="mnb2" codes="false"]