(Web)aratás digitális bölcsész módon – interjú Palkó Gáborral és Sárközi-Lindner Zsófiával

Az ELTE Digitális Bölcsészet Tanszékének oktatói (és hallgatói) többek között a magyar nyelvű web archiválását végzik. A frissen alakult Digitális Örökség Nemzeti Laboratóriumról Palkó Gábort és Sárközi-Lindner Zsófiát kérdeztük.

Ha minden csoda három napig tart, akkor a weben csak három percig. A gyors tempóban előrehaladó információs világban hamar elvész a kultúra fontos része, ráadásul el is nyomja az internetes zaj. A magyar nyelvű digitális kutúra megőrzésére nemrég alakult szervezet, ahol a mesterséges intelligencia segítségével valódi kultúramentés folyik.

A Digitális Örökség Nemzeti Laboratóriuma (DH-LAB) május 20-án tartotta megnyitó konferenciáját Digitális örökség és mesterséges intelligencia címmel. A frissen alakult konzorcium tagjai a Bölcsészettudományi Kutatóközpont, a Magyar Nemzeti Levéltár, a Miskolci Egyetem és természetesen az Eötvös Loránd Tudományegyetem. A laboratórium működéséről a projekt vezetőjét és az ELTE oktatóját, Palkó Gábort, valamint a Történelemtudományi Doktori Iskola hallgatóját, Sárközi-Lindner Zsófiát kérdeztük.

ELTE Online: Mit jelent a digitális örökség?

Palkó Gábor: A fogalmat nem könnyű definiálni, de ugyanez a probléma felmerül általában a kulturális örökséggel is. Mi meglehetősen pragmatikusan állunk ehhez a kérdéshez. A kulturális örökség részének tekintünk minden olyan kulturális terméket, amely valamely társadalomtudományi vagy bölcsészettudományi kutatás számára releváns. Ez rendkívül széles definíció, a vécépapír színe, de a kódexek margináliái is ide tartoznak, hiszen elképzelhető olyan kutatási kérdés, amire ez az adat releváns választ adhat. A digitális definíciója talán ebben az esetben még egyszerűbb és még pragmatikusabb. A digitális kulturális örökséghez tartozik az, ami hozzánk a digitális médiumon keresztül jut el. Számos olyan elmélet van, ami arról szól, hogy a 21. századi kultúrát eleve a digitális csatorna határozza meg, vagyis a legtöbb esetben az analóg is digitálisan jut el hozzánk. A digitális kulturális örökséghez tartozónak mi azt tartjuk, aminek valamilyen digitális kópiája létezik. Sok szempontból fontos kérdés, hogy van-e analóg megfelelő, vagy az obkjektum eleve digitálisan jött létre, de ez abból a szempontból mindegy, hogy minden ilyesmi a digitális kultúra része.

Palkó Gábor (ELTE, Digitális Bölcsészet Tanszék)

EO: Ebben a kontextusban mit jelent a webaratás?

Sárközi-Lindner Zsófia: A weben keletkező szövegek nagyon illékonyak és megfoghatatlanok. Nagy felelősségünk van abban, hogyan rögzítjük és milyen minőségben adjuk tovább, hogy az valóban örökség legyen, ne káosz. Ezt képviseli a webaratás.

EO: Nemrégiben alakult a Digitális Örökség Nemzeti Laboratóriuma, vagyis a DH-LAB. Mi a feladata pontosan?

P. G.: A DH-LAB az Innovációs és Technológiai Minisztérium által létrehozott nemzeti laboratóriumok közül egy. Ezt a formát a nemzeti laboratórium projekt határozza meg. A nemzeti laboratóriumok konzorciumi összefogásban megoldandó társadalmi, kulturális vagy tudományos kérdés köré csoportosulnak. A célja az, hogy Magyarországon belül az intézményileg széttagolt, de ugyanazzal a témával foglalkozó legkiválóbb kutatókat összefogja és komoly finanszírozás segítségével a kiemelt kutatási területeket fejlessze. Ezen belül mindössze két olyan projekt van, ami a bölcsészet- és társadalomtudományhoz kötődik, és nagyon büszkék lehetünk arra, hogy mindkét konzorcium vezetője az ELTE. Az egyik a Társadalmi Innovációs Nemzeti Laboratórium Magyar Dániel vezetésével, a másik pedig a Digitális Örökség Nemzeti Laboratórium. A mi célunk az, hogy a követhetetlen ütemben fejlődő mesterséges intelligenciát az örökség feldolgozásában és közvetítésében célzottan a magyar nyelvre optimalizálva hasznosítsuk.

EO: Az ELTE-s hallgatók hogyan tudnak részt venni a DH-LAB életében?

S-L. Zs.: Sok ELTE-s hallgató vesz részt a labor munkájában, köztük én is, illetve más frissen doktorált vagy PhD-hallgatók, de mesterszakosok is. Nem feltétlenül olyanokról van szó, akik eleve digitális bölcsészek, ugyanis ilyenből Magyarországon csak kevés van, másrészt a gyakorlat teszi a digitális bölcsészt. Általában az történik, hogy jön egy ember, aki érdeklődő és fogékony, valamint nem rest új dolgokat tanulni. Tőlünk ehhez kap egy nagy adag bizalmat, mi is rengeteget tanulunk egymástól és a tapasztaltabb kollégáktól. Reméljük, egyre több hallgató érdeklődését sikerül felkelteni.

EO: Zsófia, a DH-LAB honlapján a bemutatkozásában olvasható, hogy Arany János szövegeivel foglalkozott.

S-L. Zs.: Az egyetem után nem sokkal kapcsolódtam be a digitális filológiai projektbe, amit szintén Gábor vezetett. Megtapasztaltam a kétkezi munka részét, annak szépségeivel és monotonitásával együtt. Rá kellett jönni, milyen az, mikor nem egyszerűen nyomunk egy entert és felvillan az ábra. Látni kell, hogy bármilyen szoftver mögött mennyi előkészítés és munka van, és persze ahhoz is kaptam ötleteket, hogy hogyan lehet ezt tudatosan csinálni a saját munkánkban is.

P. G.: Nagyon jó példa, mikor konkrét projektekbe vonunk be jelenlegi és nemrég végzett bölcsészhallgatókat, és egy részükről mindig kiderül, hogy nem is tudták, milyen erős digitálisbölcsész-véna van bennük. Ezután Zsófi már kifejezetten digitális bölcsészeti témával jelentkezett a doktori programra. Ez eminens út a kutatói utánpótlás szempontjából.

Sárközi-Lindner Zsófia (ELTE, Történelemtudományi Doktori Iskola)

EO: Szóba került, hogy az interneten minden hamar elillan, emellett nagy a zaj is. Milyen szempontok alapján történik a releváns források kiválasztása?

P. G.: A kiválasztás szempontja az egyik legfontosabb, hiszen az alapvetően kutatásra berendezkedett Digitális Bölcsészet Tanszék, de a nemzeti laboratórium sem képes mindent archiválni a magyar weben. A Széchényi Könyvtárban folyik egy webaratás projekt, de az is erőteljesen szelektált szűk körét archiválja csak a magyar webnek. Még az Internet Archive sem képes mindent archiválni, ez fizikai lehetetlenség. A szemét nem csak úgy jelenik meg, hogy bizonyos weboldalakról azt gondoljuk, ezeket nem érdemes archiválni, a weboldalak bizonyos része is zaj, és ez rengeteg problémát okoz. A tényleges szelekció terén együttműködünk az ELTE-n a digitális szociológusokkal, akiknek tudományos módszereik vannak arra, hogy hogyan lehet szignifikáns mintákat venni. A mintavételezésnél ezt figyelembe vesszük, de teljes kapacitás mellett sem lesz képes a webaratás projektünk legfeljebb 1-2 száz weboldal aratásánál többre. Ez tehát szelektív marad, ebből a szempontból kétségtelenül szubjektív is.

S-L. Zs.: A webaratás tesztelési szakaszában a publicitás volt a fő szempont. Mondhatjuk, hogy a népszerűbb portálokból válogattunk, de ennek olyan kicsi a jelentősége, mivel már a szociológus kollégák segítenek a válogatásban. A szemét eltávolításáról azt lehet mondani, hogy saját fejlesztésű, szabadon hozzáférhető szoftverrel dolgozunk, ami célzott webaratást végez. Így már eleve kevesebb szemetet gyűjtünk be, mint az átlagos projektek, amiknél nincs mód ellenőrzésre, mert a lehető legnagyobb lefedettségre törekszenek. Ha ez az aratás, akkor mondhatjuk, hogy az én munkám a cséplés. A nyersen és a leghitelesebb formában lementett anyagot (azaz HTML kódokat) én tisztítom meg mindattól, ami körülveszi: az ajánlóktól, a reklámoktól és hasonló tartalmaktól, mert egy HTML forrásnak több mint 50 százaléka nem hasznos a számunkra. Ezek után a releváns rész további osztályozásával foglalkozom.

EO: Eddig írott szöveg alapú kulturális termékekről volt szó, de mi a helyzet a videós vagy képi anyagok archiválásával?

P.G.: Mivel magában a nemzeti laboratóriumban és a tanszéken is elsősorban nyelvtechnológiai szövegbányászattal foglalkozó szakemberek dolgoznak, ezért azt a radikális döntést hoztuk meg, hogy a webaratás projektben nem foglalkozunk semmilyen audiovizuális anyaggal. Ez igazából erőforrás és kompetencia kérdése. Mi úgy döntöttünk, hogy ezt mellőzzük a projekt jelenlegi formájában, és ez hosszú ideig így is lesz, annak ellenére, hogy döntő fontosságú paramétert veszünk ki a kutatásból. Ez egy veszteség, de lehetetlen lenne ilyen mennyiségű webes forrást archiválnunk, ha ezt is hozzávennénk.

S-L. Zs.: A feldolgozás legmagasabb produktuma a TEI XML. Ebben lehetőség van jelölni azokat a helyeket, ahol eredetileg képi tartalom jelent meg, illetve valamilyen közösségi médiából származó poszt szövegét emelték be. Ezek is osztályozva vannak és láthatóak, tehát vizsgálni lehet, hogy egy cikk mire hivatkozott, milyen tartalmakat ágyazott be.

EO: A létrejött archívum kinek és milyen formában hozzáférhető? Milyen új kutatási lehetőségeket rejt ez az ELTE-s hallgatók számára?

S-L. Zs.: Sokféle kimenete lehet ennek a feldolgozásnak. Jelenleg bárki számára elérhető egy cikk-kereső. Itt szerzői jogi kérdések miatt a metaadatokban lehet keresni, viszont linkeljük az eredeti cikkeket is, tehát azok is elolvashatók. Az együttműködések során volt példa arra, hogy egy korpuszlekérdező felületbe tudtuk – mint szöveges korpuszt – betölteni a cikkek anyagát. Ez Covid-korpusz volt, amin a Semmelweis Egyetem kutatói dolgoztak, ők vonták le a következtetéseket.

P. G.: Különböző nőtörténeti kutatások is szóba jöhetnek: nemi szerepek változása a sajtó tükrében. Még piaci hasznosításra is lehetőség van, ha valaki egy termék megjelenési kontextusának változását szeretné idődimenzióban vizsgálni. Politikatörténeti szempontból adott közszereplők szövegekben megjelenő érzelmi összefüggéseit lehet kutatni. Szinte mindenre választ adhat egy ilyen adatbázis, amit szövegalapon kérdezni lehet. Zsófi utalt rá, a szerzői jog nagyon súlyos korlátot jelent egy ilyen kutatásban, hiszen hárommillió cikk esetében sokszázezer szerzőről van szó. A törvény szerint minden egyes szerzőtől engedélyt kéne kérnünk ahhoz, hogy mi magunk egy saját szolgáltatásban a cikkek teljes szövegét szolgáltassuk, ami fizikai lehetetlenség. Kutatási célokra viszont lehetővé válik a cikkek teljes szövegű közzététele is. Azon dolgozunk, hogy minden kutatással foglalkozó intézmény és személy ezekhez hozzáférhessen Magyarországon.

EO: Szóba került a program erőforrásigénye. Milyen infrastrukturális háttere van az egész projektnek?

P. G.: Kicsiben kezdtük. Indig Balázs (a vezető nyelvtechnológusa és programozója a projektnek) szándékosan mindennapi asztali számítógép kapacitásán tesztelte a programkódokat. Bizonyította azt, hogy mindennapi párszázezer forintos számítógéppel is lehet hatékonyan webaratni az általunk fejlesztett módszertannal. Ugyanakkor ahogy növekszik a projekt, egyre komplexebbek a feladatok, egyre több az aratott tartalom. Ezeknek nemcsak a learatása, de a feldolgozása is egyre nagyobb kapacitást igényel, amelynek finanszírozására a nemzeti laboratórium projektből van lehetőségünk. Büszkén mondhatom, a laborba megérkezett idén egy rendkívül nagy teljesítményű szuperszámítógép, ami nyelvtechnológiai feldolgozását is lehetővé teszi ennek a gigantikus szövegállománynak.

EO: A laboratórium hogyan tud bekapcsolódni a nemzetközi kutatásokba?

P. G.: A digitális bölcsészet területén viszonylag egyszerű a helyzet, mindössze egy olyan nemzetközi intézményrendszer van, ami Európában meghatározó, ez a DARIAH (Digital Research Infrastructure for the Arts and Humanities). Ennek Magyarország nem tagja, az ELTE az első intézmény az országban, ami a DARIAH-nak társult tagja lett. A tagság számos lehetőséggel jár együtt, munkacsoportokba tudunk bekapcsolódni, amelyek a digitális bölcsészeten belül egy-egy célzott területet fednek le. Az ELTE kutatói lehetőséget kapnak arra, hogy az európai szakma krémjével kerüljenek kapcsolatba.

EO: A bölcsészettudományokat a digitalizáció milyen módon változtatja meg? Mi a bölcsészet jövője a digitális korban?

P. G.: Ez nagyon összetett kérdés, de ha egyetlen fogalmat szeretnék bevetni, akkor az a distant reading lenne. Azt gondolom, hogy a bölcsészettudomány úgy változik meg, hogy már a BA-s hallgatók számára is világossá válik, hogy a legtöbb kutatási kérdésre relevánsnak tűnő anyag emberi szemmel beláthatatlan. Minden bölcsész olyan gépi közvetítő eszközökre szorul rá, amelyeket a nem digitális bölcsész nem ért meg. Nem tudja, hogyan közvetíti számára a szoftver, amit ő kutatni akar. Gyakorlatilag minden bölcsész digitális bölcsésszé kell váljon. Ha reflektálni akar a kutatásának módszertanára, akkor a fekete dobozt – ami a számítógép és a szoftver – fel kell nyitnia, különben nem tudja, mit lát, és az hogyan jut el hozzá. Azon kutatások értéke megkérdőjeleződik, amelyek naivan támaszkodnak kész szoftverekre. Ott a szoftver által csatornázott kultúra jut el a kutatóhoz, és ez nem elfogadható. Ez a legnagyobb változás.

EO: Lehet azzal számolni, hogy minden bölcsészszakon megjelenik digitálisbölcsészet-kurzus a jövőben?

P. G.: Az ELTE-n már megjelent, és azt is büszkén mondhatom, hogy minden BA-t végző bölcsész számára kötelező egy egész féléves digitálisbölcsészet-kurzus. Már több mint kétezer hallgatót tanítottunk e-learning formában, és ez a szám minden évben egyre nagyobb. Ezenkívül a bölcsészettudományi karon minden PhD-hallgató számára kötelező részt venni egy, a Digitális Bölcsészet Tanszék keretei között rendezett workshopon. Az ELTE vezetése felismerte, hogy a jó bölcsész a jövőben digitálisan reflektált, különben nem tudja jól végezni a munkáját. 2022 szeptemberétől indítjuk el először BA minor formájában a digitálisbölcsészet-képzésünket is. Itt nem csak digitális bölcsészeket fogunk képezni, hanem a bölcsészeti kompetenciájukkal nem feltétlenül az adott területen elhelyezkedő hallgatók számára is komoly versenyelőny lesz, hogy reflektált tudásuk lesz bizonyos digitális technológiák kapcsán.

A digitális bölcsészeti oktatásnak különböző formái vannak, és nem is feltétlenül a hagyományos szeminárium, még kevésbé az előadás a legoptimálisabb. Egyre szélesebb körben használják a nyári egyetem lehetőségét. Mi augusztus végén az irodalomtudományi intézettel közösen szervezünk a digitális térben való szövegkiadásról szóló nyári egyetemet, amire minden hallgató jelentkezését szívesen várjuk. Persze korlátozottan, de az ELTE-s hallgatók ingyen vehetnek részt egy olyan egyhetes kurzuson, ahol például Zsófi a webaratás kapcsán szerzett tapasztalatokról fog beszélni.

A kiemelt kép forrása. A beágyazott képek forrása ez, illetve az interjúalanyok tulajdona.

[sam id="10" name="mnb2" codes="false"]