Narratio: polska historia mówiona potrzebuje infrastruktury

Nie tylko dla studentów, ale nawet dla specjalistów informacje o nagraniach są wciąż niszowe. Bywa nawet tak, że kilka instytucji zwraca się do tych samych osób. Prowadzony przez Muzeum Historii Polski oraz Centrum Archiwistyki Społecznej projekt Narratio ma połączyć rozproszone zbiory historii mówionej i ułatwić ich wyszukiwanie i wykorzystywanie.
Oto transkrypcja rozmowy z Karoliną Tabak z Muzeum Historii Polski na temat projektu budowy systemu agregującego polskie zbiory historii mówionej, który pod koniec wakacji uzyskał finansowanie z programu Fundusze Europejskie na Rozwój Cyfrowy (FERC). Nie jestem w żaden sposób związany z projektem Narratio ani z Muzeum Historii Polski. Rozmowa nie powstała w ramach jakiejkolwiek współpracy ani za wynagrodzeniem.
Marcin Wilkowski: Historia mówiona to ugruntowana metoda badań, nie tylko zresztą w naukach historycznych. Okazuje się jednak, że mamy z nią pewien podstawowy problem. Jaki?
Karolina Tabak: Główny problem z historią mówioną to brak dostępu do informacji o nagraniach. Nie mamy pełnej wiedzy o tym, jakie zasoby są w Polsce. Ten problem był już zidentyfikowany 20 lat temu, także zwracało na to uwagę Polskie Towarzystwo Historii Mówionej. Przekonywali, że przydałoby się jedno miejsce, w którym moglibyśmy przeszukiwać wszystkie zbiory.
Nie tylko dla studentów, ale nawet dla specjalistów informacje o nagraniach są wciąż niszowe. Bywa nawet tak, że kilka instytucji zwraca się do tych samych osób. Wywiad jest nagrywany i dopiero potem się okazuje, że: "rany, to wy też go macie? My też!", "I on też u was mówił o Powstaniu? No tak".
To bardzo niefortunne, tym bardziej, że mówimy też o starszych osobach, które uprzejmie się zgadzają, bo jakaś ważna instytucja się do nich zgłasza, a tyle razy muszą opowiadać o tym samym, co może być ciężkim przeżyciem.
Powstało dużo relacji , ale wiele instytucji działa też w “mocnej niszy”. Myślę tu o małych archiwach społecznych, miejskich instytucjach, niekiedy o domach kultury, bibliotekach, które mają jakieś zasoby, bo robiły jakieś małe projekty prospołeczne z wykorzystaniem historii mówionej. One w ogóle nie mają szansy się pokazać, bo o tym, że taki zasób powstał, wie na ogół autor danego projektu i niewielkie grono współpracowników. A nawet jeśli powstanie serwis internetowy z tymi nagraniami, to, podobnie jak wiele projektów realizowanych na przykład w ramach programu Kultura Cyfrowa, po jakimś czasie znika. Powstało wiele ciekawych projektów ale kiedy po trzech, czterech latach próbuję sobie z niego skorzystać, to strony już nie ma.
Opisałaś właśnie bardzo ogólnie status zbiorów historii mówionej, ale dobrze wiemy, że one są bardzo różne. Jest różnica między zbiorem przygotowanym przez Ośrodek Brama Grodzka w Lublinie czy Kartę, które same wypracowały standardy nagrywania i opisu nagrań, mają własne metody i doświadczenie, a zbiorami, które są przygotowywane trochę amatorsko w ramach archiwów społecznych. Nie twierdzę wcale, że są gorsze, tylko chyba mamy tu do czynienia z nieco innymi źródłami. Czy w waszym systemie będziecie chcieli jakoś wskazywać na takie różnicę między zbiorami? Znów, nie chodzi mi o jakość. Czy gdybym robił jakieś badanie, to mógłbym skorzystać tylko z tych materiałów, które zostały wytworzone w interesujący mnie sposób?
Tak. Chociaż takiej idealnej standaryzacji nie uda się zastosować, niemniej to jest cel projektu. Chcemy przede wszystkim stworzyć pewien standard, którego do tej pory nie było, czyli standard metadanych opisowych. W jaki sposób, jakimi metadanymi zasób historii mówionej powinien być opisany. Co się wydaje dosyć oczywiste, niemniej, z uwagi na to, że właśnie bierzemy pod uwagę bardzo różne instytucje szeroko pojętej kultury – takie jak muzea, biblioteki, archiwa, niewielkie instytucje, które opisywały coś w Wordzie albo Excelu, to nagle się okazuje, że wszyscy posługujemy się zupełnie innym językiem. Bibliotekarz opisze zbiory w MARC21, archiwista w ISAD (G), w muzeach jeszcze inaczej, bo korzysta się tam z dziesięciu różnych standardów. Chodzi nie tylko o to, żeby dogadać się co do samej struktury, jakimi polami opisujemy zasób, ale też jak rozumiemy poszczególnej jednostki informacji
Moje doświadczenie jest mocno muzealne, wiele lat pracowałam w Muzeum Narodowym i wiem, że identyczne obiekty zupełnie inaczej opisuje archiwista, inaczej muzealnik. Musimy uchwycić to, co najważniejsze, i też respektować to, że taki opis może powstawać inaczej.
Chcemy też uczyć te mniejsze centra historii mówionej, które nie mają dostępu do często drogich, komercyjnych systemów do ewidencjonowania. Wskazać im, że nawet jeżeli nie mają drogiego systemu, to mogą opisywać zbiory w porządnym arkuszu Excela. Muszą wiedzieć, jaki opis to minimum, dzięki czemu takie dane będziemy mogli pobrać.
Oczywiście, w samym projekcie nie będą powstawały nowe nagrania. Mamy wytypowanych ponad 7 tys. różnego rodzaju relacji, na których będziemy tę infrastrukturę budować i to nasze rozwiązanie sprawdzać. Tutaj też mamy rozdźwięk, bo będą i materiały audiowizualne, będą pliki tylko i wyłącznie audio, ale będą też spisane relacje, jak na przykład w zbiorach naszego partnera, czyli Centralnego Muzeum Jeńców Wojennych. Tam są spisane relacje m.in. powstańców Warszawy, gdzie już nie mamy możliwości dotrzeć do nich, bo w większości te osoby już nie żyją, ale ich relacje były spisywane, więc to będą np. pliki w PDF-ie. Takie obiekty też chcemy włączyć, bo jest to po prostu inna forma zapisu relacji.
Wspomniałaś o transkrypcjach i plikach tekstowych. Jak rozumiem, wasz projekt będzie pozwalał wyłącznie na wyszukiwanie po metadanych? Nie będzie zaglądania do środka nagrań?
Jeżeli będziemy mieli odpowiednią licencję, zgodę, to jak najbardziej chcemy pokazywać nagrania w pełnej wersji. Poziomy dostępu będą różne. Jeżeli mamy zgodę świadka, i też zweryfikujemy, że nie ma tam żadnych treści o charakterze wrażliwym - bo pod tym względem też musimy być czujni - to wtedy taki zasób chcemy udostępnić w formie: metadane, transkrypcje, i samo nagranie.
Czy transkrypcja też będzie przeszukiwana? Mogę wybrać sobie frazę, wyszukać ją w transkrypcji i i przeskoczyć do danego fragmentu nagrania?
Tak.
Planujecie wykorzystać jakieś nowe rozwiązania do automatycznej transkrypcji lub generowania metadanych nagrań?
Na pewno tak. Mamy to wpisane w projekcie, że nasz system ma mieć różnego rodzaju narzędzia wspomagane sztuczną inteligencją. Nie wskazaliśmy oczywiście na razie, co to mają być konkretnie za narzędzia. Mamy w Muzeum Historii Polski pewne doświadczenie z wykorzystaniem komercyjnego systemu, mamy też zrobiony research na temat tego, z czego korzysta się w innych instytucjach. Przed docelowym przetargiem robimy wstępne konsultacje rynkowe. Będziemy się pytali wykonawców, czego użyć najlepiej, bo nie ma potrzeby i czasu, żeby tworzyć coś zupełnie nowego, jeśli ktoś już to zrobił i to działa dobrze.
Przy automatyzacji pracy z historią mówioną mamy pewien specyficzny problem. Nagrania historii mówionej mogą być wyjątkowe pod względem językowym. To jest język inny niż współczesny polski. Nie mówię już o jakości tych starych nagrań z lat 80. czy 90., na przykład z kaset. Historie mówione to często polski przedwojenny, bardzo lokalny. Mamy na przykład nagrania relacje polskich emigrantów z Ameryki Południowej, sporządzone nie tak dawno, ale być może trudne do automatycznego przetworzenia z powodu dość dużego dystansu tamtego polskiego od polskiego współczesnego i codziennego, na którym uczą się modele przetwarzające mowę na tekst. Czy widzicie tutaj jakieś wyzwanie dla waszego systemu?
To na pewno będzie wyzwanie. Transkrypcja to po prostu bardzo żmudna praca. Sama spisywałam różne relacje, gdzie stworzenie dobrej transkrypcji godzinnego wywiadu zajmowała dzień pracy
Transkrypcje są bardzo wymagające, nic się tutaj nie da zrobić wyłącznie automatycznie. Przyjęliśmy zasadę w MHP, że na końcu zawsze człowiek musi to dokładnie sczytać. Tak samo chcemy to zrobić w projekcie, będzie osoba albo nawet zespół, jeszcze zobaczymy, która będzie wszystkie transkrypcje weryfikować, bo niestety żadnemu narzędziu nie możemy zaufać. Powinno to też być takie narzędzie, które wraz z liczbą przetworzonych nagrań będzie się uczyć. Ponieważ co nagranie, to trochę inne słownictwo, inny akcent, inny tembr głosu.
Czyli będziecie równolegle rozwijać narzędzie do transkrypcji historii mówionej?
Tak, na pewno tak. I to jest coś, z czym chcemy wychodzić właśnie do różnych podmiotów: "Zapraszamy do współpracy, oferujemy paletę narzędzi, które wam pomogą szybko i łatwo opracować nagrania”. Praca nad opracowywaniem historii mówionej jest bardzo żmudne. Mamy nadzieję, że dzięki naszym narzędziom te nagrania uda się szybko opracować, uzupełnić. Dodam jeszcze aspekt długoterminowej archiwizacji, co jest szczególnie istotne dla archiwów społecznych. One przecież nie mają żadnych serwerowni, nie mają partnerów technologicznych. Same Centrum Archiwistyki Społecznej jako instytucja nie prowadzi repozytorium, archiwiści otrzymują dostęp do narzędzie do katalogowania, czyli OSĘ, ale materiały są przechowywane wyłącznie w samych archiwach. My mamy odpowiednią infrastrukturę do takich zadań, i też w ramach projektu jeszcze ją rozwiniemy, tak żebyśmy byli tym stabilnym punktem, gdzie te nagrania mogą być gromadzone i zabezpieczone.
Wspominaliśmy już o metadanych. Czy te metadane, które będą wypracowywane czy agregowane w ramach waszego systemu, będą do wolnego użycia? Oczywiście nie oczekuję, że będzie można zupełnie swobodnie korzystać z treści nagrań, ale metadane są pod tym względem chyba bezpieczniejsze? Mogłyby zostać użyte do budowy innych narzędzi albo niezależnych analiz. Czy metadane będą wolne?
Tak, tak sądzę. Z tego, co zakładaliśmy, podstawowy opis, czyli podstawowe metadane, jeśli nie będzie zastrzeżeń, że mogą być utworem, mamy nadzieję, że wejdą do wolnego dostępu. System ma mieć otwarte API w tym zakresie właśnie w zakresie podstawowych metadanych opisowych. Mówiłam już o różnych poziomach dostępu. Może być tak, że właśnie nie ma zgody , albo mamy nagranie o charakterze mocno wrażliwym z uwagi na przykład na dane osobowe. Chcielibyśmy chociaż, żeby taka podstawowa informacja, że w danej instytucji jest takie nagranie na temat jakiegoś wydarzenia historycznego, była dostępna, żeby przynajmniej skierować użytkownika do określonej instytucji: "Słuchajcie, coś takiego powstało, więc zwróćcie się do nich i będzie można z tego skorzystać".
Już przecież na samych metadanych można robić badanie, pokazujące na przykład główne tematy tych relacji. Sprawdzać, czy dominującym tematem będzie wojna, czy może lokalność, czy jeszcze coś innego.
Tak, bo widać, że im dalej w las, te tematy są bardziej, powiedzmy, nowsze czy współczesne. W MHP nagrywamy, w ramach projektu "My Historia", relacje o ważnych wydarzeniach dla Polaków, takich jak wejście do Unii, do NATO, powódź z 1997 roku. Więc historia mówiona to już nie tylko nagrania starszych osób, opowiadających o wojnie, ale współczesne nam doświadczenia, na przykład pandemii. Mamy już nagrane relacje nastolatków, które mówią o tym, jak się czuły, kiedy były zamknięte w domach i uczyły się zdalnie.
Zastanawiam się, jak w waszym systemie będzie wyglądać import i aktualizacja danych o nagraniach? Będziecie mieli do czynienia z różnymi ośrodkami, z różnymi źródłami i standardami opisu. Czy macie jakiś pomysł na to, jak te dane sprawnie importować i aktualizować?
Bardzo ważne będzie sprzężenie, ponieważ nie chcemy budować wszystkiego zupełnie od zera, tylko korzystać z tego, co jest i funkcjonuje dobrze, czyli z narzędzia OSA, którym dysponuje Centrum Archiwistyki Społecznej. Plan jest taki, żeby wszystkie dotychczasowe podmioty, które korzystały z OSY, a jest ich prawie 900, nadal robiły dokładnie to samo. Tylko od strony takiego użytkownika pojawi się nowa funkcjonalność, "Wgraj obiekty do naszego systemu". Będziemy musieli do tego przygotować integrator. W naszym systemie te zróżnicowane dane muszą się zetknąć i zobaczyć. Specjalny zespół u nas na miejscu w MHP będzie musiał pracować nad pewną standaryzacją, tak żeby to, co będziemy udostępniać, było spójne. Taka uspójniona informacja powinna też wracać do tej instytucji, która jest właścicielem tych zasobów.
Można pomyśleć o tym, że dane, które będziecie agregować i udostępniać, mogłyby trafiać do innych agregatorów. Pomyślałem tutaj o Europeanie, ale to nie musi być jedyny kierunek.
Tak, nawet mamy to wpisane w projekt. Na pewno do systemu Kronik@, bo to jest nawet wymóg. Powstanie dedykowane API, które pozwoli nam dopilnować, żeby trafiały do Kroniki odpowiednie dane we właściwe pola i żeby to po prostu poprawnie wyglądało. Z drugiej strony serwis Europeana. Prawdopodobnie nasze zasoby będą eksportowane protokołem OAI-PMH w taki sposób, żeby mogły być wysyłane do Europeany. Wiadomo, w Europeanie metadane opisowe mają licencję CC0, więc to będzie ten podstawowy zakres danych. Czy same nagrania będą eksportowane? Będziemy to sprawdzać, chociaż do Europeany niekoniecznie będziemy wysyłać. Tak samo już robi FINA, eksportuje metadane i odsyła do swojej strony. Więc prawdopodobnie pójdziemy w tym kierunku. Nasze zasoby muszą być widziane i przeszukiwane przez Europeanę.
Jak waszym zdaniem, ta zakładana w projekcie lepsza dostępność zbiorów historii mówionej, bardzo zróżnicowanych zbiorów, może wpłynąć na polską kulturę historyczną czy pamięć społeczną? Jak może wpłynąć na polskie narracje o przeszłości?
Czuję, że faktycznie bardzo wiele. Boję się używać tych pięknych, okrągłych zdań, których musieliśmy sporo umieścić we wnioskach projektowych.
Sprawiło się tam pewnie słowo synergia.
Tak, tak, pewnie, wiele razy, i społeczeństwo informacyjne też. Ale jeśli tak szczerze na to spojrzeć, wydaje mi się, że naprawdę nasz projekt będzie istotny. Istnieje wiele tematów ważnych z perspektywy polskiej historii, niekiedy nie tych podręcznikowych, ale właśnie ważnych w wymiarze nieco bardziej społecznym, które uciekają z publicznej świadomości, bo nie ma dostępu do źródeł. I nie tylko dla osób, które badają czy interesują się historią, ale też dla nauczycieli. Nie tylko akademicy, ale też prowadzących zajęcia w wyższych klasach podstawówek czy w liceum. Oni chętniej korzystają z różnych narzędzi cyfrowych, jeśli się im je zaproponuje. Więc jeżeli będą tematy, które programowo nadadzą się do wykorzystania w szkole, to nasz system może pozwolić na nieco inny sposób poznawania historii.Dzięki cyfrowemu udostępnieniu materiałów historycznych więcej osób zyska do nich łatwy dostęp. To szczególnie ważne dla mieszkańców mniejszych miejscowości, osób starszych, z niepełnosprawnościami czy w trudniejszej sytuacji finansowej – dla nich dotychczas takie zasoby były praktycznie poza zasięgiem. Teraz będą mogli korzystać z wiedzy i materiałów na równi z innymi. To przełoży się na lepszą edukację historyczną, większą świadomość społeczną i będzie sprzyjać integracji oraz budowaniu więzi w społeczeństwie
Planujecie działania, które wspierałyby użycie zbiorów historii mówionej? Powstanie system, będzie dużo pracy z danymi, ale czy równolegle będą podejmowane działania na rzecz ponownego wykorzystania tych zbiorów?
Na pewno tak. Czujemy, że otwieramy gigantyczne pole dla różnego rodzaju mniejszych projektów tematycznych. W samym projekcie w ciągu tych trzech lat mamy zaplanowane otwarte warsztaty różnego rodzaju, w ostatnim roku projektu. Będziemy zapraszać i opowiadać o tym, co mamy i jak wykorzystywać zasoby historii mówionej. Ale to będzie tylko początek. Mam poczucie, że najistotniejsza część działań rozpocznie się po zakończeniu realizacji obecnego projektu. Na ten moment mamy jedynie wstępne plany dotyczące współpracy z CAS-em, obejmujące m.in. wyjazdy do różnych miejscowości w Polsce w celu popularyzacji naszych zbiorów. CAS posiada już znaczące doświadczenie w tego typu inicjatywach – przykładem może być realizowany latem projekt „Pamięciownik”, w ramach którego zespół odwiedził wiele miejsc w kraju.
Równolegle planujemy nawiązywać współpracę z dużymi instytucjami, takimi jak IPN, Muzeum II Wojny Światowej czy Muzeum POLIN, które same zgłaszają zainteresowanie współpracą i deklarują gotowość udostępnienia swoich, bardzo bogatych, zasobów. Jednocześnie za niezwykle ważny uważam wymiar lokalny naszych działań. Dlatego planowane spotkania i wydarzenia będą odbywać się nie tylko w Warszawie, lecz także w innych regionach Polski, co pozwoli szerzej włączyć społeczności lokalne w realizowany projekt.
Kiedy wasz system ma być gotowy?
Start projektu to styczeń 2026. Projekt trwa trzy lata, czyli kończymy w grudniu 2028. Od stycznia 2029 zapraszamy do współpracy wszystkie inne instytucje, poza tymi wskazanymi teraz oficjalnie jako partnerzy.
Karolina Tabak - historyk sztuki, specjalistka w zakresie digitalizacji i udostępniania zasobów dziedzictwa kulturowego, obecnie Kierownik Działu Zasobów Cyfrowych w Muzeum Historii Polski. Koordynuje projekt Narratio – repozytorium historii mówionej, a wcześniej realizowała liczne projekty z zakresu digitalizacji zbiorów muzealnych, w tym w Muzeum Narodowym w Warszawie. Posiada wieloletnie doświadczenie w obszarze zarządzania zasobami cyfrowymi, współpracy międzyinstytucjonalnej oraz popularyzacji kultury w środowisku cyfrowym.
Autor: redakcja
