Celem niniejszej strony jest przedstawienie wybranych aspektów wykorzystania systemu dLibra do tworzenia repozytoriów instytucjonalnych. Strona ta ma charakter uzupełniający w stosunku do reszty dokumentacji systemu i samodzielnie nie stanowi wyczerpującego opracowania. W zamian w stosownych miejscach niniejszej strony zawarto odnośniki do wybranych fragmentów dokumentacji. Strona skonstruowana jest w formie pytań i odpowiedzi - zachęcamy do zgłaszania kolejnych pytań w komentarzach do tej strony lub w serwisie pytań i odpowiedzi Federacji Bibliotek Cyfrowych.

Spis pytań

Czym różnią się od siebie biblioteki cyfrowe i repozytoria instytucjonalne? 

W podstawowym zakresie zarówno biblioteki cyfrowe, jak i repozytoria instytucjonalne służą temu samemu celowi: udostępnianiu obiektów cyfrowych wraz z metadanymi, zazwyczaj z podziałem na kolekcje i dodatkowymi narzędziami takimi jak wyszukiwanie, przeglądanie, indeksy itd. Stąd też terminy te często używane są wymiennie, zwłaszcza w kontekście technicznym. Rozróżnienie następuje zazwyczaj na poziomie rodzaju udostępnionych zbiorów. Termin "biblioteka cyfrowa" zwyczajowo stosuje się w kontekście serwisów udostępniających zbiory biblioteczne w postaci cyfrowej (zarówno zbiory będące efektem digitalizacji, jak i zbiory natywnie cyfrowe / born-digital). Z kolei termin "repozytorium instytucjonalne" opisuje serwisy, w których udostępniane są efekty pracy (najczęściej naukowej) osób zatrudnionych w danej instytucji, najczęściej powstające współcześnie. Nie muszą to być materiały oficjalnie wydane - mogą to być np. również prezentacje czy powstające wewnątrz instytucji raporty (np. techniczne). Istnieją różne podejścia do określenia wzajemnej relacji tych systemów - w zależności od kontekstu czasem terminy te używane są wymiennie, czasem mówi się że biblioteka cyfrowa jest terminem szerszym, a repozytorium jest tylko pewnym podzbiorem tego co może pojawić się w bibliotece cyfrowej (np. kolekcją), a czasem podaje się że repozytorium jest czymś ogólniejszym, niż biblioteka cyfrowa gdyż np. obejmuje prace nieobjęte recenzją, niewydane w sposób formalny, a jedynie udostępnione on-line. Do tego można jeszcze dodać terminy takie jak "muzeum cyfrowe" czy "archiwum cyfrowe", które znów są pewnym wariantem opisanych wcześniej systemów różniącym się charakterem udostępnianych zbiorów, sposobem ich opisu (schemat metadanych) czy prezentacji (interfejs użytkownika, usługi dodane).

Poza potencjalnymi różnicami w zakresie charakteru gromadzonych i udostępnianych zbiorów, często podawanym wyróżnikiem repozytoriów cyfrowych jest sposób gromadzenia tych zbiorów. O ile w przypadku typowych bibliotek cyfrowych gromadzenie materiałów i wprowadzanie ich do systemu jest zadaniem pracowników biblioteki, o tyle w przypadku repozytoriów instytucjonalnych często przyjmuje się, że materiały w dużej mierze gromadzone są metodą samoarchiwizacji / self-archivingu, czyli procesu w którym autor pracy przesyła ją np. przez specjalny formularz WWW do systemu repozytorium. Następnie administratorzy/moderatorzy repozytorium weryfikują materiał i decydują o jego udostępnieniu bądź zwróceniu do autora w celu wprowadzenia niezbędnych poprawek. Zależnie od zasad działania, część zmian może być wprowadzana przez administratorów repozytorium (np. uzupełnienie opisu obiektu, przypisanie do stosownych kolekcji) bądź też realizowana automatycznie np. konwersja plików zapisanych w formatach edytowalnych (np. doc) na formaty archiwizacyjne/dystrybucyjne (np. PDF/A). W tego typu sytuacji często realizowana jest również integracja systemu uwierzytelniania pracowników instytucji z systemem uwierzytelniania i autoryzacji repozytorium instytucjonalnego.

Zobacz też:

Czy w ramach jednej instytucji biblioteka cyfrowa i repozytorium to powinny być odrębne inicjatywy czy też lepiej je połączyć?

To zawsze decyzja indywidualna. Poniżej kilka podstawowych zalet jednego i drugiego podejścia:

Analiza zalet tych dwóch teoretycznie alternatywnych podejść może prowadzić do wniosku, że rozwiązaniem oferującym wszystkie zalety jest system, który pozwala w ramach jednej bazy gromadzić różnego rodzaju dane i dzielić je na odrębne interfejsy/portale dopiero na etapie prezentacji. W systemie dLibra podejście takie jest możliwe w oparciu o odpowiednio zaprojektowaną strukturę kolekcji.

Dla przykładu - załóżmy, że chcemy zbudować jeden system gromadzący trzy rodzaje materiałów:

W tym celu można w systemie dLibra zaprojektować następującą strukturę kolekcji:

Przykład ten jest złożony, ale jego celem jest oddanie szerokich możliwości zastosowania mechanizmów oferowanych przez system dLibra. Zazwyczaj w systemie dLibra podstawą dla Aplikacji Czytelnika jest główna kolekcja (M), w myśl "prostej zasady jedno wdrożenie = jeden interfejs WWW z kompletem zbiorów". Zamysł przy strukturze kolekcji zaprezentowanej powyżej jest taki, aby głównej kolekcji (M) nie towarzyszył dedykowany portal WWW, a zamiast tego funkcjonować powinny trzy portale bazujące odpowiednio na kolekcjach (A-C). Każdy z tych trzech portali może mieć swoją własną strukturę kolekcji i podkolekcji, a do tego powinna powstać spójna polityka udostępniania zbiorów obejmująca wszystkie portale funkcjonujące w ramach takiego wdrożenia systemu dLibra. Dzięki temu, że w systemie dLibra obiekt może należeć do więcej niż jednej kolekcji możliwe jest przypisanie jednej publikacji do kilku kolekcji widocznych w kilku różnych portalach. 

W powyższym przykładzie można by przyjąć np. następujące zasady:

Przy takich założeniach uzyskujemy:

Dostęp do publikacji w portalach (A) i (B) może być autoryzowany w razie potrzeby. Dostęp do portalu (C) jest w całości ograniczony do zakresu adresów IP sieci lokalnej Instytucji X. Na terenie Instytucji X najlepiej korzystać z portalu (C). Poza instytucją, w zależności od preferencji użytkownik może korzystać z portali (A) lub (B). Ponadto portal (B) można promować i rejestrować jako repozytorium instytucjonalne.

 

Zobacz też:

dLibra to system do budowy bibliotek cyfrowych, czy można więc na jego bazie tworzyć repozytoria instytucjonalne?

Tak, dLibra może być z powodzeniem wykorzystywana do budowy repozytoriów instytucjonalnych. Posiada wszystkie niezbędne funkcje związane z gromadzeniem i udostępnieniem obiektów cyfrowych i metadanych, wspiera również samoarchiwizację / self-archiving.

Istotną cechą repozytoriów instytucjonalnych jest możliwość samodzielnego deponowania prac przez autorów (tzw. self-archiving, samoarchiwizacja). Czy dLibra to wspiera?

Tak, jest to szczegółowo opisane w dokumentacji w rozdziale 04. Alternatywne wersje prezentacyjne (wieloformatowość). Możliwe jest również integrowanie systemu dLIbra z zewnętrznymi systemami uwierzytelniania użytkowników :03. Integracja z systemami Single Sign-On.

Chcę udostępniać materiały na otwartych licencjach oraz materiały, do których dostęp mogą mieć tylko pracownicy mojej instytucji - wszystko to są publikacje pracowników mojej instytucji. Czy powinienem zbudować dwa odrębne repozytoria, czy też warto i da się to połączyć w jeden system?

Da się takie dwa repozytoria uruchomić jako jeden system informatyczny z dwoma portalami WWW. Można to zrealizować w sposób analogiczny do łączenia biblioteki cyfrowej i repozytorium, co opisano w odpowiedzi na pytanie: Czy w ramach jednej instytucji biblioteka cyfrowa i repozytorium to powinny być odrębne inicjatywy czy też lepiej je połączyć?

Zalety rozdzielenia takich repozytoriów na dwa oddzielne interfejsy WWW to przede wszystkim możliwość promowania przynajmniej części publikacji - tych które są otwarte - jako w 100% otwartego repozytorium, tzn. zawierającego tylko otwarte publikacje. Jednak należy się zastanowić, w jakim celu takie 100% otwarcie jest wymagane. Dla przykładu serwis OpenDOAR, jeden z najpopularniejszych na świecie agregatorów metadanych z otwartych repozytoriów, jako najczęstsze kryteria odrzucenia zgłoszeń rejestracyjnych podaje:

Jak widać OpenDOAR nie eliminuje repozytoriów, które zawierają równocześnie materiały dostępne w sposób otwarty i dostępne w sposób ograniczony (np. tylko dla pracowników, tylko na terenie instytucji). 

Jak w systemie dLibra mogę połączyć bibliotekę cyfrową i repozytorium instytucjonalne?

Opisano to w odpowiedzi na pytanie Czy w ramach jednej instytucji biblioteka cyfrowa i repozytorium to powinny być odrębne inicjatywy czy też lepiej je połączyć?

Zależy mi na widoczności materiałów z mojego repozytorium w Google Scholar. Czy dLibra wspiera to w jakiś sposób?

Tak, dLibra spełnia wymagania serwisu Google Scholar dotyczące indeksowania, m.in. na stronie prezentującej metadane poszczególnych obiektów w kodzie HTML strony w sekcji <HEAD> zawarte są stosowne znaczniki z metadanymi publikacji. dLibra umożliwia też pobranie metadanych w formatach RIS i BibTeX, co ułatwia ich wykorzystanie w pracy naukowej. Na stronach Google Scholar system dLibra nie jest wymieniony jako zalecany (wymienione są tylko dwa popularne systemy repozytoryjne open-source i jeden usługodawca oferujący repozytoria hostowane), nie oznacza to jednak że dLibra nie jest zgodna z wymaganiami Google Scholar.

Poza wsparciem ze strony systemu dLibra niezwykle ważne jest, żeby pliki z pracami naukowymi publikowane w systemie dLibra były przygotowane pod kątem wymagań Google Scholar. Absolutne minimum to publikowanie plików w formacie PDF, z warstwą tekstową (nie samych skanów). Więcej informacji można znaleźć w serwisie informacyjnym Google Scholar.

Jak przygotować pliki PDF aby Google Scholar nie miało problemów z ich indeksowaniem? 

Szczegółowe informacje dotyczące tworzenia plików PDF znaleźć można na stronie opisującej zasady tworzenia PDF dla Google Scholar (w języku angielskim). Generalnie dokument PDF należy tworzyć zgodnie z poniższą konwencją:

Tytuł dokumentu - powinien to być największy fragment tekstu na górze strony, pisany czcionką w rozmiarze co najmniej 24 pkt. Należy używać tej samej czcionki dla całego tytułu i upewnić się, że wszystkie inne teksty na stronie utworzone są mniejszą czcionką niż tytuł - w przeciwnym razie, ten drugi, większy tekst, może być błędnie interpretowane jako tytuł. 

Autorzy dokumentu - powinni być umieszczeni tuż przed lub tuż po tytule, nieco mniejszą czcionką, która jest większa niż zwykły tekst, np. z przedziału 16-23 pt. Należy używać tej samej czcionki dla wszystkich nazwisk autorów i upewnić się, że treści nagłówków sekcji wykorzystują mniejszą czcionkę niż autorzy artykułu. W przeciwnym razie, ten drugi, większy tekst, może być błędnie interpretowany jako autor. Poszczególnych autorów należy rozdzielić przecinkami lub średnikami, pomijając ich afiliacje, stopnie i certyfikaty. W stosownych przypadkach można użyć formatu: "Author: John Smith". 

Bibliografia – powinna być umieszczona na końcu dokumentu i odpowiednio zatytułowana, np. „References” lub „Bibliography”. 

Odwołania - poszczególne odwołania wewnątrz tekstu powinny być odpowiednio numerowane w postaci: "1. - 2. - 3." lub "[1] - [2] - [3]". Tekst każdego odwołania powinien zawierać cytowanie w powszechnie stosowanym formacie, np. "J. Biol. Chem., Vol. 234, Nr. 8, str. 1971/75, sierpień 1959". Jeśli bibliografia nie została jeszcze opublikowana, należy podać datę jej obecnej wersji, na przykład, "12 sierpnia 2009". 

Typ czcionki – należy unikać stosowania czcionek typu 3, ponieważ są one często generowane z brakującym lub nieprawidłowym rozmiarem i/lub kodowaniem, co utrudnia przetwarzanie dokumentu przez narzędzia google. Typ używanej czcionki można sprawdzić w menu Plik->Właściwości… w Adobe Acrobat Reader.

Jak szybko materiały opublikowane w repozytorium na dLibrze znajdą się w Google Scholar?

Trudno podać jednoznaczny i stały termin - wszystko zależy od zasad działania Google i tego jak często aktualizują oni dane z konkrentego repozytoriu. Ale należy się spodziewać, że odpowiednio przygotowane publikacje powinny być widoczne w przeciągu kilku-kilkunastu dni. Na przełomie kwietnia i maja 2013 przeprowadziliśmy mały eksperyment w tym zakresie. Więcej informacji można znaleźć tutaj:

http://dlab.psnc.pl/2013/05/06/repozytorium-instytucjonalne-na-systemie-dlibra-i-google-scholar-maly-eksperyment/

Zależy mi na widoczności materiałów z mojego repozytorium w Google Books. Czy dLibra wspiera to w jakiś sposób?

Serwis Google Books jest przede wszystkim serwisem dla wydawców, zainteresowanych sprzedażą książek. Ponadto dostępne są tam kopie skanów, których powstanie finansowała firma Google. Instytucje, które chcą udostępnić swoje zbiory w Google Books powinny skontaktować się w firmą Google. Po ustaleniu zasad współpracy i określeniu wymagań technicznych (nie są one dostępne publicznie), PCSS może zaimplementować niezbędne mechanizmy w systemie dLibra.

W mojej instytucji funkcjonuje wydawnictwo, które wydaje i sprzedaje przez internet książki, skrypty i czasopisma powstające u nas. Czy mogę w jakiś sposób uwzględnić te zasoby w repozytorium instytucjonalnym?

Najlepszym rozwiązaniem jest podpisanie umowy z wydawnictwem, która umożliwi przekazanie publikacji do biblioteki cyfrowej (ewentualnie po pewnym okresie embargo od momentu opublikowania tej publikacji).

Jeżeli to nie jest możliwe, to najprostszym sposobem technicznym jest wykorzystanie mechanizmu publikacji linkujących dostępnego od wersji 5.5 systemu dLibra. Dzięki temu do systemu dLibra można wprowadzić:

Jeżeli serwis WWW wydawnictwa zostanie skonfigurowany tak, aby umożliwiać serwerowi systemu dLibra (np. na podstawie stałego adresu IP) dostęp przy pomocy protokołu HTTP (czyli analogicznie do czytelników korzystających z przeglądarki WWW) np. do plików PDF czy HTML z tekstem artykułów, uzyska się efekt gdzie w bibliotece cyfrowej/repozytorium można wyszukiwać publikację na podstawie jej opisu i treści, a czytelnik przy próbie otwarcia treści jest przekierowywany na właściwą stronę WWW wydawnictwa, gdzie np. może dokonać zakupu artykułu.

Autorzy z mojej instytucji publikują swoje prace w międzynarodowych wydawnictwach, które udostępniają artykuły odpłatnie. Czy mogę w jakiś sposób uwzględni te zasoby w repozytorium instytucjonalnym?

Publikacje z wydawnictw zewnętrznych (w tym zagranicznych) można włączyć w sposób analogiczny do tego opisanego w odpowiedzi na pytanie W mojej instytucji funkcjonuje wydawnictwo, które wydaje i sprzedaje przez internet książki, skrypty i czasopisma powstające u nas. Czy mogę w jakiś sposób uwzględnić te zasoby w repozytorium instytucjonalnym?.

Czy mogę w repozytorium gromadzić również informacje na temat publikacji, których treść nie jest w żaden sposób dostępna on-line?

W systemie dLibra jedyną formą publikacji bez treści (i bez linku do treści) są na chwilę obecną publikacje planowane. Informacje o publikacjach, których treść nie jest w żaden sposób dostępna on-line powinny być gromadzone w osobnej bazie bibliograficznej. Gdyby była konieczność uwzględniania takich danych w bibliotece cyfrowej, proponowanym sposobem jest import metadanych z bazy bibliograficznej do biblioteki cyfrowej i umieszczenie wraz z tymi danymi linku zwrotnego do właściwego rekordu w bazie. Jednak taka praktyka może się spotkać z rozczarowaniem ze strony użytkowników oczekujących po repozytorium / bibliotece cyfrowej dostępu do pełnego tekstu, a nie jedynie informacji bibliograficznej. Dlatego też zalecanym rozwiązaniem jest linkowanie z bazy bibliograficznej do repozytorium (oczywiście dla tych publikacji, które w repozytorium są dostępne), a nie odwrotnie.

W mojej instytucji pracuje kilka tysięcy pracowników naukowych. Planujemy gromadzić wszystkie publikacje pracowników w repozytorium i być może wprowadzić również mandat Open Access. Czy kilka tysięcy użytkowników równocześnie wprowadzających swoje prace nie spowoduje przeciążenia systemu?

Liczba nowych publikacji w przypadku dużych wdrożeń systemu dLibra sięga od kilku (Wielkopolska Biblioteka Cyfrowa) do nawet dziesięciu tysięcy miesięcznie (Jagiellońska Biblioteka Cyfrowa). Są to w większości skany materiałów bibliotecznych, czyli publikacje bardziej obciążające serwery biblioteki cyfrowej, niż pliki typowe artykuły naukowe - pliki PDF z warstwą tekstową i ewentualnie kilkoma ilustracjami. Przygotowanie repozytorium instytucjonalnego na dużą liczbę użytkowników wprowadzających swoje publikacje może obejmować następujące aspekty:

 

Dokument PDF należy tworzyć zgodnie z poniższą konwencją:

Tytuł dokumentu - największy fragment tekstu na górze strony, pisany czcionką w rozmiarze co najmniej 24 pkt. Należy używać tej samej czcionki dla całego tytułu i upewnić się, że wszystkie inne teksty na stronie utworzone są mniejszą czcionką niż tytuł - w przeciwnym razie, ten drugi, większy tekst, może być błędnie interpretowane jako tytuł.

Autorzy dokumentu - umieszczeni tuż przed lub tuż po tytule, nieco mniejszą czcionką, która jest większa niż zwykły tekst, np. z przedziału 16-23 pt. Należy używać tej samej czcionki dla wszystkich nazwisk autorów i upewnić się, że treści nagłówków sekcji wykorzystują mniejszą czcionkę niż autorzy artykułu. W przeciwnym razie, ten drugi, większy, tekst może być błędnie interpretowany jako autor. Poszczególnych autorów należy rozdzielić przecinkami lub średnikami, pomijając ich afiliacje, stopnie i certyfikaty. W stosownych przypadkach można użyć formatu: "Author: John Smith".

Bibliografia umieszczona na końcu dokumentu i odpowiednio zatytułowana, np. „References” lub „Bibliography”. 

Odwołania - Poszczególne odwołania wewnątrz tekstu powinny być odpowiednio numerowane w postaci: "1. - 2. - 3." lub "[1] - [2] - [3]". Tekst każdego odwołania powinien zawierać cytowanie w powszechnie stosowanym formacie.: "J. Biol. Chem., Vol. 234, Nr. 8, str. 1971/75, sierpień 1959". Jeśli bibliografia nie została jeszcze opublikowana, należy podać datę jej obecnej wersji, na przykład, "12 sierpnia 2009".

Typ czcionki – należy unikać stosowania czcionek typu 3, ponieważ są one często generowane z brakującym lub nieprawidłowym rozmiarem i/lub kodowaniem, co utrudnia przetwarzanie dokumentu przez narzędzia google. Typ używanej czcionki można sprawdzić w menu Plik->Właściwości… w Adobe Acrobat Reader.

Szczegółowe informacje dotyczące tworzenia plików PDF znaleźć można na stronie opisującej zasady tworzenia PDF dla Google Scholar (w języku angielskim).