Dane

Pobierz książkę w formacie epub Pobierz książkę w formacie pdf

Układ alfabetyczny w encyklopedii czy katalogu książek w bibliotece był prawdziwą rewolucją w dostępie do wiedzy. Kiedy w XVII wieku stał się już standardem, niektórzy wciąż krytykowali go za bezbożny charakter. Wadą moralną spisów alfabetycznych miało być odrzucenie porządku natury. Nie godziło się przecież w bibliografiach publikacji o sprawach duchowych streszczać pod książkami o sprawach ziemskich, a w muzeach święte artefakty układać razem z wytworami ludów uznawanych za przynależne raczej naturze niż kulturze. Ten przykład dobrze pokazuje, że interfejsy dostępu do wiedzy i informacji o dziedzictwie nie zawsze wdrażane są bez problemów i musi minąć trochę czasu, zanim społecznie umówimy się, że są „naturalne”. ¶1

Chciałem o tym przypomnieć, zanim napiszę o danych. Dane to zbiory różnych wartości przyjmowanych przez różne zmienne. Takimi zmiennymi mogą być temperatura powietrza, data, tytuł książki, pozycja punktu na mapie, definicje kolorów w pliku graficznym albo satysfakcja z zarobków, deklarowana przez pracowników i pracownice sektora kultury. Każda z tych zmiennych może przyjmować różne wartości. Czasem są one w miarę obiektywne i ustandaryzowane, tak jak wysokość temperatury w skalach Kelvina i Celsjusza, data według kalendarza gregoriańskiego albo szerokość i długość geograficzna. Ze względu na to można je łatwo przetwarzać i porównywać, aby uzyskać nową wiedzę. Wartości innych zmiennych nie są już takie uporządkowane: zestawione razem wypowiedzi na temat wysokości zarobków w sektorze kultury należy odpowiednio opracować, aby można je porównać. Niekiedy nawet samo badanie zakładać może taką redukcję danych – czym innym będzie przecież stworzenie ankiety, w której odpowiedź na pytanie o satysfakcję z wysokości zarobków możliwa będzie jedynie przez wybór odpowiedniej opcji z zamkniętej listy lub wskazanie wartości od 1 do 5. ¶2

Redukowanie i przeinaczanie

Liczby bardzo sprawnie redukują rzeczywistość przy generowaniu danych. Ten proces można jednak przezwyciężyć i robimy to właściwie naturalnie. Każdy, kto przed wyjściem z domu sprawdza temperaturę na zewnątrz, w błyskawiczny sposób interpretuje dane, a nawet przetwarza je na opowieść, zupełnie odrzucając ich abstrakcyjność: odczytane na termometrze „5° C” zamienia się na „Załóż czapkę, bo się przeziębisz”, a „17” na wyświetlaczu tramwaju wizualizuje 40-minutową drogę do domu i możliwość przesiadki w określonym miejscu. ¶3

Niestety w sektorze kultury widać to bardzo dobrze w rozmaitych raportach grantowych. Obiektywne „11546 sesji w roku” z analityki strony muzeum cyfrowego zamienia się w sprawozdaniu na „co miesiąc naszą stronę odwiedzało prawie 12 tysięcy osób” lub „miesięcznie zbiory muzeum w Internecie oglądano 12 tysięcy razy”. Właściwie to dane być może wcale nie są abstrakcyjne, ponieważ mogą funkcjonować tylko w jakimś kontekście i interpretacji, która bardzo szybko wykrzywia ich obiektywne znaczenie. ¶4

Do tej pory przytaczałem przede wszystkim przykłady danych liczbowych. Tymczasem dla sektora dziedzictwa zdecydowanie większe znaczenie mają dane tekstowe. Niestety, tutaj też pojawia się problem obiektywizacji. Jedna z polskich bibliotek cyfrowych w opisach swoich zbiorów publikuje informacje o statusie prawno-autorskim: publikacje, które nigdy nie były nimi objęte lub wobec których prawa już wygasły, opisywane są jako „Domena publiczna” i „domena publiczna”. Z punktu widzenia użytkownika nie ma to większego znaczenia, o ile w ogóle orientuje się, czym jest domena publiczna i poważa kwestię praw autorskich. Jednak gdybym chciał automatycznie pobrać informacje o zbiorach tej biblioteki, musiałbym do działania programu, który by miał to zrobić, dodać zasadę, że „Domena publiczna” i „domena publiczna” to jednak to samo. Języki haseł wzorcowych, tezaurusy i słowniki kontrolowane, korpusy specjalistyczne do tłumaczeń prawnych czy technicznych to tylko niektóre przykłady narzędzi, mających pomagać w obiektywizacji danych tekstowych. ¶5

W sektorze kultury równie często jak o danych, usłyszeć można o metadanych. Metadane to po prostu informacje opisujące inne dane lub obiekty. Ten podział nie zawsze jest czytelny. Kiedy późną jesienią za oknem widzimy 5° C i zastanawiamy się, czy to już czas, żeby założyć czapkę, korzystamy z danej liczbowej, która reprezentuje pewien konkretny stan fizyczny: rozszerzanie lub kurczenie się cieczy (rtęci). Gdybyśmy przez miesiąc codziennie rano spisywali wartość temperatury, to 5° C, 7° C czy -1° C w połączeniu z poszczególnymi datami stałyby się metadanymi opisującymi cechy każdego dnia. Nie tak daleko stąd do myślenia obiektowego, które jest jednym z paradygmatów współczesnej informatyki. Ciemne i zimne dni polskiego listopada byłyby tu obiektami klasy „dzień” o cechach (tożsamościach) takich jak „data” i „temperatura”. ¶6

W takiej perspektywie biblioteki są skrajnie zinformatyzowaną przestrzenią. Każdy tytuł w katalogu to przecież jakiś obiekt klasy „książka”, posiadający wyróżniające go cechy: tytuł, imię i nazwisko autora, datę wydania czy liczbę stron. Kiedy przychodzimy do biblioteki i prosimy o „jakąś książkę o historii Gdańska”, wysyłamy – oczywiście w języku naturalnym – zapytanie o obiekty klasy „książka”, które posiadają cechę „temat” = „historia Gdańska”. Podobnie, jeśli w katalogu bibliotecznym istnieje metadana „temat” i przypisane są do niej takie wartości, jak „historia Gdańska”, dostaniemy informację zwrotną. Kiedy jednak przyjdziemy do biblioteki z prośbą o „książkę do przeczytania w weekend”, bibliotekarz lub bibliotekarka będą mieli problem, żeby cokolwiek nam zaproponować. O ile „historia Gdańska” to dość obiektywna wartość metadanych, to „książka do przeczytania w weekend” jest już bardzo relatywna i ma inne znaczenie dla gimnazjalisty, a inne dla studentki polonistyki tuż przed sesją. Jak widać, żyjemy w świecie obiektów i metadanych, a to, co dzieje się dziś w związku z nimi w sektorze dziedzictwa, to tylko posługiwanie się możliwościami technicznymi, aby jeszcze lepiej z nich korzystać. ¶7

Katalogi, indeksy, regesty, ewidencje, rejestry – w sektorze dziedzictwa źródeł danych do przetwarzania bywa wiele i nieraz tworzone są one zupełnie natywnie, bez specjalnego myślenia o tym, że budując je, próbuje się zmieścić skomplikowaną rzeczywistość w opisie zamkniętym w ścisłej strukturze mniej lub bardziej abstrakcyjnych obiektów. Wciąż jednak niewiele instytucji decyduje się na ujawnianie i publikowanie zbiorów takich danych, uznając, że są to informacje wewnętrzne, a upublicznianie ich nie przyniesie nikomu korzyści. Wystarczyć mają interfejsy dostępu do danych – inwentarz archiwalny, katalog kartkowy lub internetowy, wyszukiwarka. ¶8

Na początku tego rozdziału wspominałem o problemach z katalogami alfabetycznymi, które swego czasu oskarżano o zaburzanie naturalnej, boskiej hierarchii bytów i zjawisk. Udostępnianie danych i metadanych w sektorze kultury i dziedzictwa to także wyzwanie dla pewnej hierarchii, zakładającej, że to konkretna instytucja ma dominującą rolę w kształtowaniu dostępu do swoich zbiorów i budowaniu ścieżek ich odkrywania. Ta dominująca rola jest już jednak od dawna fikcją, o ile przyjmujemy tezę, że większość użytkowników i użytkowniczek zbiorów cyfrowych muzeów, archiwów i bibliotek trafia na nie przez ogólną wyszukiwarkę Google, która ignoruje nie tylko hierarchię poszczególnych kolekcji i obiektów, ale też ich źródło. Opisana w dalszych rozdziałach Mleczarka Vermeera linkowana jest w Google Image Search nie tylko z oficjalnego źródła w Rijksmuseum, ale i z setek amatorskich blogów i stron. Tak więc, broniąc się przed publikowaniem danych o swoich zbiorach, nie ma sensu odwoływać się do fikcyjnego już dziś monopolu i złudnej dominacji. Udostępnianie danych w żaden sposób nie osłabia pozycji instytucji jako gwaranta jakości informacji o zbiorach, a pozwala na coś, co wydaje mi się jedną z największych obietnic dla sektora kultury. ¶9

Obietnica wspólnego interfejsu

Dlaczego ludzie lubią wyszukiwarkę Google? Bo tam jest „wszystko”. Jeden interfejs pozwala w praktyce na dostęp do nieograniczonego zasobu informacji o informacjach. Oczywiście indeks wyszukiwarki ma swoje granice, ale nie da się też odczytać wszystkich wyników wyszukiwania dla wszystkich możliwych fraz. Czym dokładnie jest Google? To baza metadanych opisująca inne zasoby sieci WWW: strony internetowe, grafikę, dokumenty tekstowe, pdf-y, nagrania multimedialne. To zbiór o ogromnej różnorodności, posiadający jednak pewne wspólne cechy. Na przykład adres URL, lokalizujący wybrany zasób w globalnej sieci oraz pokazujący sposób dostępu do niego (za pomocą protokołu http, https czy ftp) i wskazujący na typ opisywanego zasobu – format pliku (html, txt, jpg itp.). ¶10

Niestety, tylko w niewielkim stopniu Google zwraca uwagę na to, czym dokładnie jest treść, którą indeksuje. Jeśli prowadziłbym bloga z recenzjami książek, mógłbym dzięki usłudze Google Search Console poinformować roboty indeksujące Google, że pojawiająca się we wszystkich notkach w tym samym miejscu liczba od 0 do 5 wskazuje moją ocenę danej pozycji, a inne stałe elementy szablonu notki informują o autorze książki, tytule czy wydawnictwie. Bez tego Google pozostanie głupie i uzna te elementy za część treści tekstowej, którą potraktuje tak jak tekst recenzji. Jeśli jednak dostanie odpowiednie znaczniki, mogę liczyć na to, że w wynikach wyszukiwania link do moich notek przyjmie postać zgrabnej tabelki (tak zwanej karty informacyjnej). Google stara się rozpoznawać znaczenie indeksowanych informacji oraz łączyć je ze sobą dla wygody użytkowników: ¶11

Google uzupełnia wyniki wyszukiwania korzystając z otwartych zbiorów danych semantycznych takich jak choćby WikiData.

Tak samo jak w przypadku moich recenzji, tak i w przypadku zbiorów dziedzictwa i kultury Google pozostaje bezbronne bez informacji z zewnątrz. Można wskazać robotom Google, że dana informacja na stronie to zaproszenie na wydarzenie lub recenzja książki, mogą one nawet (dla wyszukiwarki Google Scholar) rozpoznawać datę powstania dzieła publikowanego w bibliotece cyfrowej, jego sygnaturę czy informację o liczbie stron, jeśli tylko znajduje się ona w którymś z pól metadanych Dublin Core. ¶12

Na szczęście nie jesteśmy skazani wyłącznie na Google. Istnieje wiele specjalistycznych wyszukiwarek, które pracują na niestandardowych danych i zasobach. Wyszukiwarki w bibliotekach cyfrowych czy repozytoriach naukowych pozwalają przeszukiwać zbiory pod kątem wydawcy, daty publikacji, języka czy sygnatury. Wyszukiwarki w archiwach cyfrowych potrafią przeszukiwać w nieraz skomplikowanej i nieoczywistej strukturze zbiorów. Niektóre umożliwiają tworzenie zaawansowanych zapytań do przeszukiwania pełnotekstowego, także w zbiorach otagowanych semantycznie, to znaczy takich, w których wyszukiwarce powiedziano, czym są i jaką pełnią funkcję wybrane fragmenty treści. Jeśli brzmi to skomplikowanie, lepiej na własną rękę sprawdzić, jak to działa. ¶13

Dobrym przykładem wyszukiwarki semantycznej jest (mający już swoje lata) serwis Open Source Shakespeare. Dzięki temu, że zdigitalizowane i OCR-owane teksty Szekspira zostały odpowiednio otagowane, możemy szybko wygenerować listę wypowiedzi wybranej postaci i znaleźć w nich wybraną frazę. Możemy też stworzyć zaawansowane zapytanie dla całego korpusu tekstów. Kiedy wspomniałem o obietnicy, jaką daje publikowanie przez instytucje dziedzictwa danych o zbiorach, miałem na myśli właśnie tworzenie takich narzędzi. Ich profil, zaawansowanie oraz zadania mogą być różne, a łączy je na pewno to, że nie mogą działać bez odpowiednich danych. ¶14

Europeana i DPLA (Digital Public Library of America) to dwa wielkie projekty integracji danych o zbiorach instytucji dziedzictwa. Same w sobie nie posiadają one żadnych treści, nie gromadzą ich, nie digitalizują i nie udostępniają na swoich stronach. Działają raczej jako punkty dostępu, agregujące w jednym miejscu informacje pozyskane od tysięcy bibliotek, muzeów, archiwów, galerii i organizacji pozarządowych. Użytkownicy, zamiast korzystać z wielu wyszukiwarek na stronach poszczególnych instytucji, korzystają z jednej, która umożliwia zbiorcze przeszukiwanie. Nie jest to specjalnie nowa idea. Od 2002 roku polskie biblioteki naukowe i akademickie przeszukiwać można en masse za pomocą wyszukiwarki NUKAT. Chociaż działa ona na nieco innych podstawach niż Europeana czy DPLA, efekt jest podobny: rozproszone informacje stają się dostępne w jednym miejscu. ¶15

Odebrać i zrozumieć

Aby Europeana i DPLA mogły udostępniać jedną wyszukiwarkę do rozproszonych zbiorów, musiały zostać spełnione trzy podstawowe warunki. Po pierwsze, instytucje dziedzictwa musiały udostępnić informacje o swoich zbiorach. Po drugie, musiały udostępnić je w ustandaryzowanej postaci. Po trzecie, musiały udostępnić je w określony, ujednolicony sposób. Wymiana metadanych przypomina nieco zwykłą rozmowę: aby z kimś porozmawiać, musimy znać jego język, wiedzieć, że porozumiewamy się za pomocą głosu (lub gestów – w języku migowym) i, co oczywiste, mieć w ogóle chęć powiedzenia czegokolwiek. Bez tego komunikacja nie będzie możliwa. ¶16

Struktury gramatyczne języka wykorzystywane w rozmowie to protokół komunikacji, czyli metoda wysyłania, przenoszenia i odbierania wypowiedzi. Jeśli jedna z rozmawiających osób będzie myliła przypadki lub błędnie używała końcówek w rodzajach, to nic nie wyjdzie z takiej konwersacji. Podobnie jest w przypadku transferu metadanych z jednych cyfrowych zbiorów instytucji kultury do drugich: zastosowany standardowy protokół pozwala jednej aplikacji zrozumieć, co wysyła druga. Zrozumieć oczywiście nie w sensie rozumienia treści pozwalającego na jej swobodną interpretację, ale zrozumieć przynajmniej tak, żeby wiedzieć, że dane pole metadanych opisuje tytuł, a inne nazwisko autora dzieła i ten podział, obecny już na etapie wysyłania danych na zewnątrz, może przenieść do własnej bazy danych. ¶17

Takim protokołem, bardzo często wykorzystywanym w upowszechnianiu zbiorów instytucji dziedzictwa jest Protokół Inicjatywy Otwartych Archiwów do Pobierania Metadanych (Open Archives Initiative Protocol for Metadata Harvesting, OAI-PMH). To standard przesyłania i odbierania wartości metadanych w schemacie Dublin Core, będącym niczym innym jak powszechnie stosowanym zestawem pól informujących o cechach udostępnianych obiektów. Wybór standardu metadanych i umiejętne jego wdrożenie jest kluczowe przy racjonalnym planowaniu upowszechniania zbiorów online. Aby to zrozumieć, warto wyobrazić sobie ćwiczenie, które jakiś czas temu zorganizowaliśmy podczas warsztatów w Laboratorium Cyfrowym Humanistyki Uniwersytetu Warszawskiego. Zaprosiliśmy uczestników i uczestniczki do obejrzenia kilku fotografii historycznych, wyświetlanych projektorem na ścianie. Pierwsze zadanie polegało na opisaniu ich własnymi słowami. Następnie poprosiliśmy, aby te same fotografie opisać w bardziej uporządkowany sposób, nadając im tytuł, wpisując informację o dacie i dodając zestaw słów kluczowych. ¶18

Oczywiście – co nietrudno zgadnąć – opisy różniły się między sobą. W efekcie pierwszego zadania otrzymaliśmy kilkanaście zupełnie różnych opisów, przygotowanych w różnych stylach i o różnej długości, w których tylko od czasu do czasu pojawiały się wspólne frazy, takie jak wojna, Solidarność czy Kraków. Drugie zadanie, zmuszające uczestników i uczestniczki ćwiczenia do posługiwania się podstawowym schematem, rzeczywiście dało zestaw opisów o tej samej liczbie pól metadanych. Niestety treści, którymi je wypełniono, bardzo się od siebie różniły. Bo przecież nie tylko z punktu widzenia wyszukiwarki w bazie danych NSZZ Solidarność to nie to samo co Solidarność, a II wojna światowa nie jest tym samym co Druga wojna światowa. ¶19

Aby przeciwdziałać takim sytuacjom, nie tylko w przypadku transferowania metadanych z jednego punktu do drugiego, stosuje się schematy metadanych i standardowe protokoły z najpopularniejszym OAI-PMH. Protokół ten, tak jak standard Dublin Core, jest bardzo dobrze opisany w wielu publikacjach, nie ma więc sensu robić tego w tym miejscu. Może wystarczy podać przykładowy opis przygotowany za jego pomocą, raczej też jako ilustrację, niż wzór wypełniania poszczególnych pól, który należałoby bezkrytycznie powielać: ¶20

Tytuł Memoryał Ankiety w sprawie pomieszczenia Archiwum i Muzeum Historycznego Miasta Lwowa. Z ryciną
Autor Balzer, Oswald (1858-1933) ; Kętrzyński, Wojciech (1838-1918)
Data wydania 1905
Typ zasobu broszura
Współtwórca Finkel, Ludwik (1858-1930) ; Hendel, Zygmunt (1862-1929) ; Korzeniowski, Józef (1863-1921) ; Kubala, Ludwik (1838-1918)
Wydawca dr. W. A. Szyjkowskiego
Miejsce wydania Lwów
Format image/x.djvu
Identyfikator zasobu oai:www.sbc.org.pl:7581
Powiązania DVD S 90
Źródło 49339 II
Język pol
Lokalizacja oryginału Biblioteka Śląska, Katowice
Digitalizacja Społeczna Pracownia Digitalizacji ŚBC przy Bibliotece Śląskiej (wolontariat)
Publikacja Wojewódzka Biblioteka Publiczna w Kielcach (gościnnie)

Eksportowane dane udostępnia się także w specjalnych, standardowych formatach, takich jak XML (rozszerzalny język znaczników, ang. Extensible Markup Language) lub JSON (notacje obiektów JavaScript, ang. JavaScript Object Notation). Informacje zapisane w takiej postaci są łatwe do odczytania przez programy pisane w różnych językach programowania i pozwalają zachować czytelną strukturę informacji, dzięki czemu bardzo dobrze nadają się do jej transportowania przez WWW. Oba te formaty mają bogatą dokumentację dostępną swobodnie online, wystarczy więc, że pojawią się tu poniżej dwa przykłady informacji zapisanych w postaci przez nie wymaganej. ¶21

Przykład 1: metadane w postaci pliku json, opisujące książkę Wincentego Śmiałka Utopijne rojenia w starożytności (1936), dostępną na stronach biblioteki Polona (fragment) ¶22

{
“id”: “Njc4Njk4NzI”,
“slug”: “utopijne-rojenia-w-starozytnosci”,
“title”: “Utopijne rojenia w staro\u0139\u017aytno\u0139\u009bci”,
“alternative”: null,
“alternative_hidden”: null,
“uniform_title”: null,
“uniform_title_aut”: null,
“uniform_title_add”: null,
“key_title”: null,
“additional_title”: null,
“former_title”: null,
“series_title”: null,
“translation_of”: null,
“translated_as”: null,
“creator”: “\u0139\u009amia\u0139\u0082ek, Wincenty (1863-1943)”,
“creator_name”: “Wincenty \u0139\u009amia\u0139\u0082ek”,
“creator_date”: “1863-1943”,
“creator_apposition”: null,
“creator_corp”: null,
“contributor”: null,
“contributor_corp”: null,
“date”: “1936-01-01T00:00:00”,
“date_descriptive”: “1936”,
“country”: “Ukraina”,
“publisher”: null,
“publish_place”: “Lw\u0102\u0142w”,
“publisher_number”: null,
“imprint”: “Lw\u0102\u0142w : [s.n.], 1936 (Lw\u0102\u0142w : Druk. Zak\u0139\u0082. Narodowego im. Ossoli\u0139\u0084skich)”,
“frequency”: null,
“edition”: null,
“series”: null,
“copublished”: null,
“chronological_term”: null,
“physical_description”: “16 s. ; 24 cm”,
“file_characteristics”: null,
“categories”: [
“books”
],
“metatypes”: [
“nadbitki i odbitki”
], ¶23

Przykład 2: wybrane metadane tej samej publikacji dostępne w postaci pliku XML ¶24

<?xml version="1.0" encoding="UTF-8"?><br /> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"><br /> <rdf:Description rdf:about="http://polona.pl/item/67869872/"><br /> <title>Utopijne rojenia w starożytności</title><br /> <creator>Śmiałek, Wincenty (1863-1943)</creator><br /> <subject>Utopia &#8211; historia</subject><br /> <description>Odb.: Księga pamiątkowa ku czci Leona Pinińskiego. Lwów 1936, t. 2.</description> <publisher>Lwów : [s.n.], 1936 (Lwów : Druk. Zakł. Narodowego im. Ossolińskich).</publisher> <date>1936</date><br /> <format>image/text</format><source>Biblioteka Narodowa</source><br /> <language>pol</language><br /> <coverage>do 5 w.</coverage><br /> <rights>Domena Publiczna. Wolno zwielokrotniać, zmieniać i rozpowszechniać oraz wykonywać utwór, nawet w celach komercyjnych, bez konieczności pytania o zgodę.</rights><br /> </rdf:Description><br /> </rdf:RDF> ¶25

Potencjał danych

Wspólne wyszukiwarki to tylko jedna z możliwości wykorzystania danych o zbiorach dziedzictwa. Kiedy każdy może bezpłatnie pobrać z wybranej biblioteki lub archiwum cyfrowego informacje o zbiorach dostępne w standardowej postaci, sposobów na ich wykorzystanie może być bardzo wiele. Niektórzy mogą użyć ich bezpośrednio jako źródła do pracy naukowej, inni budować na ich bazie własne narzędzia i aplikacje.
Tutaj niestety – jak to często bywa – atrakcyjna idea zderza się z twardą rzeczywistością. Jeśli przygotowując się do udostępniania danych ze swoich zbiorów, oczekujemy masowego zainteresowania i dziesiątek narzędzi budowanych na ich bazie, na pewno się rozczarujemy. Trzeba przyznać, chociaż niechętnie, że dane o zbiorach dziedzictwa mają ograniczony potencjał. Dzieje się tak również dlatego, że zazwyczaj opisują artefakty już stare, nieobecne we współczesnym obiegu kultury, często też trudne do zrozumienia bez odpowiedniej wiedzy historycznej, z zakresu sztuki czy literatury. Nie podzielam naiwnej fascynacji potencjałem danych o zbiorach dziedzictwa, szczególnie kiedy sugeruje się, że mają one nie tylko poznawczą czy wiedzotwórczą, ale też komercyjną wartość. ¶26

Wolałbym za to myśleć o udostępnianiu danych nie jako o dodatku do misji instytucji dziedzictwa, ale jako jej naturalnej części. Skoro, udostępniając zbiory online, nie bierzemy pod uwagę tego, jak wielką popularność mogą one zyskać w Sieci, ale traktujemy to jako naturalną kolej rzeczy w sektorze kultury – tak samo udostępnianie danych traktować możemy jako działanie, którego nie trzeba motywować względami komercyjnymi czy odwoływaniem się do jakiejś sztucznej innowacyjności. W wielu miejscach tej książki staram się pokazać, że instytucje dziedzictwa nie są podmiotami komercyjnymi i logikę rynku oraz konkurencji powinny przyjmować w ograniczonym stopniu. To ograniczenie dotyczyć powinno też udostępniania danych. ¶27

Warto przy tym zwrócić uwagę, że dane publikowane przez instytucje dziedzictwa nie muszą obejmować wyłącznie informacji o zbiorach. Przykładowo, muzea gromadzą informacje o odwiedzających, posiadają nieraz duże kolekcje specjalistycznej literatury w wewnętrznych bibliotekach, archiwizują własną dokumentację czy organizują wydarzenia. W prowadzonym przez Instytut Kultury Miejskiej w Gdańsku projekcie „Kalendarz wydarzeń kulturalnych” te ostatnie dane są zbierane od różnych instytucji i integrowane w jednej bazie, gotowej do tego, aby na jej podstawie tworzyć aplikacje i narzędzia informujące o tym, co dzieje się w mieście, gdzie warto pójść i co zobaczyć. Także biblioteki cyfrowe wkładają dużo pracy w poprawny opis swoich zbiorów – tworzą tezaurusy tematyczne czy biograficzne hasła wzorcowe. Udostępnienie takich danych byłoby wartościową pomocą dla wszystkich, którzy pracują nad tworzeniem katalogów i potrzebują dobrej jakości opisów. Otwarte dane są również warunkiem powstawania aplikacji, budowanych niezależnie od instytucji i bez angażowania jej środków. ¶28

Dlaczego nie?

Teoria otwartych danych dziedzictwa obiecuje wiele, nawet jeśli kręcimy nosem wobec tez o ich komercyjnym znaczeniu i pomysłów na ich masowe wykorzystanie. Jednak kiedy chcemy wdrożyć tę teorię w praktyczną działalność konkretnej instytucji, problemem stają się nie tylko wiedza, kompetencje i zasoby. Trzeba jeszcze przekonać odpowiednie osoby, że takie działanie ma sens. Bez względu na to, czy przekonywany musi być dyrektor, dyrektorka czy osoby oceniające wnioski w konkursach grantowych, przygotowując się do starań o zielone światło dla otwartych danych, warto przepracować najważniejsze argumenty przeciwko nim. ¶29

Na blogu OpenGlam znajdziemy krótką charakterystykę najważniejszych wyzwań wobec otwartych danych w instytucjach dziedzictwa (Obstacles to Opening Up Content and Data in the Cultural Heritage Sector, 2012). Podzielono je na kilka podstawowych kategorii: wyzwania prawne, ekonomiczne (finansowe), techniczne oraz związane z kontrolą nad własnymi zbiorami. Trudno powiedzieć, która z tych kategorii łączy w sobie więcej problemów. Być może jednak, zamiast starać się je rozwiązywać, lepiej zwyczajnie je ominąć. ¶30

Oto pojawia się na przykład pytanie, czy status prawno-autorski opisów zbiorów pozwala na ich udostępnienie do dalszego, także komercyjnego, wykorzystania. Zamiast badać ten status i starać się określić go możliwie dokładnie, lepiej wprowadzić ogólną zasadę, że opisy (metadane) nie są utworami i jako takie nie podlegają ograniczeniom prawa autorskiego. Jeśli w opisach pojawiają się jakieś elementy chronione (na przykład krótkie notki biograficzne autorów i autorek poszczególnych dzieł), udostępniając dane, można je pominąć. Europeana, agregując informacje o zbiorach z europejskich instytucji dziedzictwa, właśnie w ten sposób radzi sobie z prawem autorskim. Zakłada, że wszystkie metadane publikowane przez te intsytucje mają status domeny publicznej, a dokładnie są oznaczone jako pozbawione ograniczeń praw autorskich. Warto przy tym pamiętać o pewnej podstawowej zasadzie: uwolnienie danych o zbiorach nie oznacza w żadnym przypadku, że same zbiory (skany, cyfrowe reprodukcje itp.) nagle przestają podlegać ochronie prawno-autorskiej. ¶31

Pytanie o koszty udostępniania danych jest jak najbardziej zasadne. Obejmują one przecież nie tylko samo udostępnianie danych, ale też ich przygotowanie, wyczyszczenie, zabezpieczenie pod kątem prawa autorskiego itp. Wymaga to nie tylko określonych nakładów finansowych, ale też pracy i narzędzi. Czy te koszty da się jakoś ograniczyć? ¶32

Jeśli instytucja korzysta z nowoczesnego oprogramowania do udostępniania zbiorów cyfrowych, publikowanie danych o tych zbiorach powinno być tam zautomatyzowane. Wszystkie biblioteki cyfrowe działające na dLibrze automatycznie udostępniają opisy swoich zbiorów za pomocą protokołu OAI-PMH: okazuje się, że można publikować otwarte dane dziedzictwa, nawet nie zdając sobie z tego sprawy. Przy zamawianiu oprogramowania do tworzenia bibliotek, muzeów czy archiwów cyfrowych warto zadbać o to, aby w specyfikacji znalazło się przygotowanie modułu do automatycznego publikowania metadanych. ¶33

Co zrobić, jeśli oprogramowanie jest przestarzałe albo instytucja w ogóle nie udostępnia zbiorów cyfrowych online? Można założyć, że informacje o zbiorach dostępne są w jakiejś wewnętrznej bazie danych. Mogą być też dostępne w Excelu – w przypadku małych i oddolnych inicjatyw to możliwe. Praca, którą należałoby wykonać, polegałaby na przetworzeniu tych danych i opublikowaniu ich w miejscu, w którym mogłyby być dalej swobodnie pobierane. Oczywiście warto tu od razu zadać pytanie, czy jest sens publikować informacje o zbiorach, których nie da się zobaczyć online. Moim zdaniem – warto, robi tak zresztą Europeana. Nieraz sama informacja o tym, że dany obiekt dostępny jest w jakiejś instytucji, ma już fundamentalną wartość. ¶34

Potencjalne komercyjne wykorzystanie otwartych danych dziedzictwa może być wyzwaniem dla niektórych instytucji. To problem wynikający z potrzeby kontroli nad własnymi zbiorami oraz odpowiedzialności za ich jakość. Udostępnianie metadanych nie pozbawia jednak instytucji kontroli, bo przetwarzane są nie treści, a informacje o nich. Swoją drogą, kontrola ta i tak staje się iluzją w momencie opublikowania online pierwszego skanu czy zdjęcia obiektu muzealnego. Nigdy nie będziemy w stanie w pełni kontrolować i śledzić wykorzystywania tak łatwych do skopiowania i rozpowszechniania treści cyfrowych. ¶35

Problem odpowiedzialności wydaje się bardziej istotny. Czy instytucja, która w dobrej wierze i w poczuciu realizacji swojej misji publikuje dane, powinna brać odpowiedzialność za ich jakość? Nie jest przecież w stanie przewidzieć, do jakich celów zostaną one użyte i czy nawet mały błąd w numerze sygnatury lub literówka w opisie nie wywoła poważnego błędu w aplikacji wykorzystującej te dane. Dlatego być może najlepszym rozwiązaniem jest zadeklarować wyłączenie odpowiedzialności. Ta dość powszechna zasada przy publikowaniu kodów źródłowych otwartego oprogramowania może przydać się też instytucjom kultury. Publikujemy wówczas dane z zastrzeżeniem, że nie bierzemy odpowiedzialności za ich jakość, kompletność, integralność i dalsze efekty ich wykorzystania. „Używasz metadanych na własną odpowiedzialność” – tak informuje Europeana i nie ma żadnego powodu, dla którego inne instytucje nie miałyby wprowadzić takiej zasady. ¶36