[EN] 09. Creating Institutional Repositories Based on the dLibra System

On this page, selected aspects of the use of the dLibra system for creating institutional repositories are discussed. The information is complementary with respect to the rest of the documentation of the system and, on its own, does not constitute an exhaustive presentation. In the appropriate places on this page, links to selected fragments of the documentation are provided. The page has the structure of questions and answers. We encourage our readers to submit new questions in the comments to this page or in the question and answer service of the Digital Library Federation.

Question List

What is the difference between digital libraries and institutional repositories?

In their basic scopes, both digital libraries and institutional repositories have the same aim: providing access to digital objects – usually broken down into collections – and offering additional tools, such as searching, browsing, or indexes. Therefore, those phrases are often used interchangeably, especially in the technical context. The difference usually lies in the type of the offered resources. The term “digital library” is customarily applied to services which provide access to library collections in the digital form (both digitized collections and collections which have been ‘born digital’). The term “institutional repository” describes services which provide access to the effects of the work (usually scientific and contemporary) of the people employed in the given institution. The materials do not have to be officially published – they can also be presentations or reports (for example, technical reports) created in the institution. There are various approaches to the interrelationships of the two systems. Depending on the context, the terms are sometimes used interchangeably. Sometimes, the term ‘digital library’ is said to have a wider meaning while the term ‘repository’ is viewed as a subset (for example, a collection) of what can be stored in a digital library. On the other hand, some people believe that a ‘repository’ is the more general term because a repository may contain works which have not been reviewed or officially published but are only made available online. There are other synonymous terms, such as ‘digital museum’ or ‘digital archive’, which refer to variants of the systems described above, different with respect to the offered resources or the way in which those resources are described (the metadata schema) or presented (the user interface, added services).

Apart from the potential differences with respect to the nature of the collected and offered resources, the way in which the resources are collected is often quoted as a distinguishing characteristic of digital repositories. In the case of typical digital libraries, a library user collects the materials and enters them to the system. In the case of institutional repositories, it is often assumed that materials are collected largely by means of the self-archiving method, that is, a process in which authors send their works, for example, through a special online form, to the repository system. Next, the administrators/moderators of the repository verify the material and decide whether it should be made availble or returned to the author for the necessary corrections to be made. Whatever the principles of operation, some changes (for example, completing an object descriptions or assigning objects to appropriate collections) can be introduced by repository administrators, and some can be made automatically (for example, conversion of files saved in editable formats, such as DOC, to archiving/distribution formats, such as PDF/A). In such a case, the institutional user authentication system is often integrated with the institutional repository authorization and authentication system.

Also see

the “Digital libraries and institutional repositories – what is the difference?” question in the “Questions and answers” service of the Digital Library Federation.

Should a digital library and a repository within the framework of one institution be separate initiatives or is it better to combine them?

That is always an individual decision. Below, we discuss a few basic advantages of both approaches.

Combining a Digital Library with a Repository
- For end users: easier access to a greater number of objects – one access point for the resources of the (digital) library and the works of the employees of the institution.
- For administrators/editors of a digital library / repository: simpler and more comfortable management of collecting and providing access – there is one system of collecting resources and making them available for maintenance and management.
- For IT specialists: simpler and cheaper system maintenance – one information system for maintaining, administering, updating, monitoring, and protecting; one equipment infrastructure.
A Digital Library and a Repository as Separate Initiatives
- For end users: easier access to a specialized scope of materials – the access point only to the contemporary works of the employees of the institution.
- For institution employees: greater opportunities for presenting one’s professional profile and the profile of the institution – a dedicated server which only presents the publications and other materials which are being created in the institution.

- For administrators / repository editors: new options for promoting the repository – the option to register the data and scientific content in the browsers and data aggregators which only accept services matching the definition of an (open) institutional repository.

When the two theoretically alternative approaches are analyzed, one may come to the conclusion that all the advantages could be enjoyed in a system allowing the collection of various types of data in one database and only breaking them down to separate interfaces/portals at the presentation level. Such an approach is possible in the dLibra system, based on an appropriately designed collection structure.

For example, let us assume that we want to construct one system which would encompass three types of materials:

historical library collections,
contemporary publications of the employees of the institution, and
current copywrighted publications, only available in Poland.

For that purpose, the following collection structure can be designed in the dLibra system:

(M) The main collection of the dLibra system
- (A) The digital library of institution X
  - Collections
    - Subcollections
- (B) The institutional repository of institution X
  - Collections
    - Subcollections
- (C) The internal repository of institution X
  - Collections
    - Subcollections

It is a complex example, but it is presented with the view to illustrating the broad scope of possibilities offered by the mechanisms of the dLibra system. Usually, the main collection (M) is the basis for the reader application in the dLibra system, in accordance with the simple rule of “one implementation = one website interface with a complete set of resources”. The idea behind such a structure is that the main collection (M) should not be accompanied by a dedicated website but by three portals based on, respectively, collections A–C. Each of those three portals can have its own structure of collections and subcollections, and a consistent policy of making resources available should be created. The policy should encompass all the portals in such an implementation of the dLibra system. Since an object in the dLibra system can belong to more than one collection, one publication can be assigned to several collections visible in various portals.

For example, the following rules could be adopted in the example above:

digitized library resources are assigned to portals A and C,
all employee publications are assigned to portals A, B, and C, and
contemporary copyrighted publications which are only to be published on the premises of the institution are assigned to portal C

Given those assumptions, we obtain:

portal A which contains the information about all (library and repository) resources which institution X possesses and can make available to the public or which are authored by the employees of institution X;
portal B which contains the information about all the works authored by the employees of institution X; and
portal C which contains the resources from portals A and B and the information about the publications which are only published on the premises of institution X.

Access to publications in portals A and B can be authorized if need be. Access to the whole portal C is restricted to the range of the IP addresses of the local network of institution X. On the premises of the X institution, it is best to use portal C. Outside of the premises, a user can use portal A or portal B. Moreover, portal B can be promoted and registered as an institutional repository.

Also see

“Can digital libraries and repositories be combined?” in the “Questions and Answers” service of the Digital Library Federation. Pytanie "Czy można łączyć biblioteki cyfrowe i repozytoria?" w serwisie FBC "Pytania i odpowiedzi"

dLibra to system do budowy bibliotek cyfrowych, czy można więc na jego bazie tworzyć repozytoria instytucjonalne?

Tak, dLibra może być z powodzeniem wykorzystywana do budowy repozytoriów instytucjonalnych. Posiada wszystkie niezbędne funkcje związane z gromadzeniem i udostępnieniem obiektów cyfrowych i metadanych, wspiera również samoarchiwizację / self-archiving.

Istotną cechą repozytoriów instytucjonalnych jest możliwość samodzielnego deponowania prac przez autorów (tzw. self-archiving, samoarchiwizacja). Czy dLibra to wspiera?

Tak, jest to szczegółowo opisane w dokumentacji w rozdziale [EN] 04. Alternative presentation versions (multi-format). Możliwe jest również integrowanie systemu dLIbra z zewnętrznymi systemami uwierzytelniania użytkowników :[EN] 03. Integrating with Single Sign-On systems.

Chcę udostępniać materiały na otwartych licencjach oraz materiały, do których dostęp mogą mieć tylko pracownicy mojej instytucji - wszystko to są publikacje pracowników mojej instytucji. Czy powinienem zbudować dwa odrębne repozytoria, czy też warto i da się to połączyć w jeden system?

Da się takie dwa repozytoria uruchomić jako jeden system informatyczny z dwoma portalami WWW. Można to zrealizować w sposób analogiczny do łączenia biblioteki cyfrowej i repozytorium, co opisano w odpowiedzi na pytanie: Czy w ramach jednej instytucji biblioteka cyfrowa i repozytorium to powinny być odrębne inicjatywy czy też lepiej je połączyć?

Zalety rozdzielenia takich repozytoriów na dwa oddzielne interfejsy WWW to przede wszystkim możliwość promowania przynajmniej części publikacji - tych które są otwarte - jako w 100% otwartego repozytorium, tzn. zawierającego tylko otwarte publikacje. Jednak należy się zastanowić, w jakim celu takie 100% otwarcie jest wymagane. Dla przykładu serwis OpenDOAR, jeden z najpopularniejszych na świecie agregatorów metadanych z otwartych repozytoriów, jako najczęstsze kryteria odrzucenia zgłoszeń rejestracyjnych podaje:

Serwis jest regularnie niedostępny
Serwis jest czasopismem, a nie repozytorium
Serwis nie zawiera żadnych materiałów dostępnych na zasadach Open Access
Serwis zawiera tylko informacje bibliograficzne i ewentualnie linki do zewnętrznych serwisów, nie zawiera pełnych treści
Serwis to katalog biblioteczny albo serwis z e-bookami, które dostępne są tylko w sieci lokalnej
Serwis wymaga logowania (nawet jeżeli jest ono bezpłatne), żeby uzyskać dostęp do teoretycznie otwartych materiałów
Serwis udostępnia treści na zasadach komercyjnych - płatny dostęp

Jak widać OpenDOAR nie eliminuje repozytoriów, które zawierają równocześnie materiały dostępne w sposób otwarty i dostępne w sposób ograniczony (np. tylko dla pracowników, tylko na terenie instytucji).

Jak w systemie dLibra mogę połączyć bibliotekę cyfrową i repozytorium instytucjonalne?

Opisano to w odpowiedzi na pytanie Czy w ramach jednej instytucji biblioteka cyfrowa i repozytorium to powinny być odrębne inicjatywy czy też lepiej je połączyć?

Zależy mi na widoczności materiałów z mojego repozytorium w Google Scholar. Czy dLibra wspiera to w jakiś sposób?

Tak, dLibra spełnia wymagania serwisu Google Scholar dotyczące indeksowania, m.in. na stronie prezentującej metadane poszczególnych obiektów w kodzie HTML strony w sekcji <HEAD> zawarte są stosowne znaczniki z metadanymi publikacji. dLibra umożliwia też pobranie metadanych w formatach RIS i BibTeX, co ułatwia ich wykorzystanie w pracy naukowej. Na stronach Google Scholar system dLibra nie jest wymieniony jako zalecany (wymienione są tylko dwa popularne systemy repozytoryjne open-source i jeden usługodawca oferujący repozytoria hostowane), nie oznacza to jednak że dLibra nie jest zgodna z wymaganiami Google Scholar.

Poza wsparciem ze strony systemu dLibra niezwykle ważne jest, żeby pliki z pracami naukowymi publikowane w systemie dLibra były przygotowane pod kątem wymagań Google Scholar. Absolutne minimum to publikowanie plików w formacie PDF, z warstwą tekstową (nie samych skanów). Więcej informacji można znaleźć w serwisie informacyjnym Google Scholar.

Jak przygotować pliki PDF aby Google Scholar nie miało problemów z ich indeksowaniem?

Szczegółowe informacje dotyczące tworzenia plików PDF znaleźć można na stronie opisującej zasady tworzenia PDF dla Google Scholar (w języku angielskim). Generalnie dokument PDF należy tworzyć zgodnie z poniższą konwencją:

Tytuł dokumentu - powinien to być największy fragment tekstu na górze strony, pisany czcionką w rozmiarze co najmniej 24 pkt. Należy używać tej samej czcionki dla całego tytułu i upewnić się, że wszystkie inne teksty na stronie utworzone są mniejszą czcionką niż tytuł - w przeciwnym razie, ten drugi, większy tekst, może być błędnie interpretowane jako tytuł.

Autorzy dokumentu - powinni być umieszczeni tuż przed lub tuż po tytule, nieco mniejszą czcionką, która jest większa niż zwykły tekst, np. z przedziału 16-23 pt. Należy używać tej samej czcionki dla wszystkich nazwisk autorów i upewnić się, że treści nagłówków sekcji wykorzystują mniejszą czcionkę niż autorzy artykułu. W przeciwnym razie, ten drugi, większy tekst, może być błędnie interpretowany jako autor. Poszczególnych autorów należy rozdzielić przecinkami lub średnikami, pomijając ich afiliacje, stopnie i certyfikaty. W stosownych przypadkach można użyć formatu: "Author: John Smith".

Bibliografia – powinna być umieszczona na końcu dokumentu i odpowiednio zatytułowana, np. „References” lub „Bibliography”.

Odwołania - poszczególne odwołania wewnątrz tekstu powinny być odpowiednio numerowane w postaci: "1. - 2. - 3." lub "[1] - [2] - [3]". Tekst każdego odwołania powinien zawierać cytowanie w powszechnie stosowanym formacie, np. "J. Biol. Chem., Vol. 234, Nr. 8, str. 1971/75, sierpień 1959". Jeśli bibliografia nie została jeszcze opublikowana, należy podać datę jej obecnej wersji, na przykład, "12 sierpnia 2009".

Typ czcionki – należy unikać stosowania czcionek typu 3, ponieważ są one często generowane z brakującym lub nieprawidłowym rozmiarem i/lub kodowaniem, co utrudnia przetwarzanie dokumentu przez narzędzia google. Typ używanej czcionki można sprawdzić w menu Plik->Właściwości… w Adobe Acrobat Reader.

Jak szybko materiały opublikowane w repozytorium na dLibrze znajdą się w Google Scholar?

Trudno podać jednoznaczny i stały termin - wszystko zależy od zasad działania Google i tego jak często aktualizują oni dane z konkrentego repozytoriu. Ale należy się spodziewać, że odpowiednio przygotowane publikacje powinny być widoczne w przeciągu kilku-kilkunastu dni. Na przełomie kwietnia i maja 2013 przeprowadziliśmy mały eksperyment w tym zakresie. Więcej informacji można znaleźć tutaj:

http://dlab.psnc.pl/2013/05/06/repozytorium-instytucjonalne-na-systemie-dlibra-i-google-scholar-maly-eksperyment/

Zależy mi na widoczności materiałów z mojego repozytorium w Google Books. Czy dLibra wspiera to w jakiś sposób?

Serwis Google Books jest przede wszystkim serwisem dla wydawców, zainteresowanych sprzedażą książek. Ponadto dostępne są tam kopie skanów, których powstanie finansowała firma Google. Instytucje, które chcą udostępnić swoje zbiory w Google Books powinny skontaktować się w firmą Google. Po ustaleniu zasad współpracy i określeniu wymagań technicznych (nie są one dostępne publicznie), PCSS może zaimplementować niezbędne mechanizmy w systemie dLibra.

W mojej instytucji funkcjonuje wydawnictwo, które wydaje i sprzedaje przez internet książki, skrypty i czasopisma powstające u nas. Czy mogę w jakiś sposób uwzględnić te zasoby w repozytorium instytucjonalnym?

Najlepszym rozwiązaniem jest podpisanie umowy z wydawnictwem, która umożliwi przekazanie publikacji do biblioteki cyfrowej (ewentualnie po pewnym okresie embargo od momentu opublikowania tej publikacji).

Jeżeli to nie jest możliwe, to najprostszym sposobem technicznym jest wykorzystanie mechanizmu publikacji linkujących dostępnego od wersji 5.5 systemu dLibra. Dzięki temu do systemu dLibra można wprowadzić:

opis publikacji dostępnej na stronach wydawnictwa,
link do stron wydawnictwa na który ma zostać przekierowany użytkownik po próbie otwarcia treści publikacji w systemie dLibra,
linki do plików publikacji, które system dLibra powinien zaindeksować na potrzeby wyszukiwania pełnotekstowego.

Jeżeli serwis WWW wydawnictwa zostanie skonfigurowany tak, aby umożliwiać serwerowi systemu dLibra (np. na podstawie stałego adresu IP) dostęp przy pomocy protokołu HTTP (czyli analogicznie do czytelników korzystających z przeglądarki WWW) np. do plików PDF czy HTML z tekstem artykułów, uzyska się efekt gdzie w bibliotece cyfrowej/repozytorium można wyszukiwać publikację na podstawie jej opisu i treści, a czytelnik przy próbie otwarcia treści jest przekierowywany na właściwą stronę WWW wydawnictwa, gdzie np. może dokonać zakupu artykułu.

Autorzy z mojej instytucji publikują swoje prace w międzynarodowych wydawnictwach, które udostępniają artykuły odpłatnie. Czy mogę w jakiś sposób uwzględni te zasoby w repozytorium instytucjonalnym?

Publikacje z wydawnictw zewnętrznych (w tym zagranicznych) można włączyć w sposób analogiczny do tego opisanego w odpowiedzi na pytanie W mojej instytucji funkcjonuje wydawnictwo, które wydaje i sprzedaje przez internet książki, skrypty i czasopisma powstające u nas. Czy mogę w jakiś sposób uwzględnić te zasoby w repozytorium instytucjonalnym?.

Czy mogę w repozytorium gromadzić również informacje na temat publikacji, których treść nie jest w żaden sposób dostępna on-line?

W systemie dLibra jedyną formą publikacji bez treści (i bez linku do treści) są na chwilę obecną publikacje planowane. Informacje o publikacjach, których treść nie jest w żaden sposób dostępna on-line powinny być gromadzone w osobnej bazie bibliograficznej. Gdyby była konieczność uwzględniania takich danych w bibliotece cyfrowej, proponowanym sposobem jest import metadanych z bazy bibliograficznej do biblioteki cyfrowej i umieszczenie wraz z tymi danymi linku zwrotnego do właściwego rekordu w bazie. Jednak taka praktyka może się spotkać z rozczarowaniem ze strony użytkowników oczekujących po repozytorium / bibliotece cyfrowej dostępu do pełnego tekstu, a nie jedynie informacji bibliograficznej. Dlatego też zalecanym rozwiązaniem jest linkowanie z bazy bibliograficznej do repozytorium (oczywiście dla tych publikacji, które w repozytorium są dostępne), a nie odwrotnie.

W mojej instytucji pracuje kilka tysięcy pracowników naukowych. Planujemy gromadzić wszystkie publikacje pracowników w repozytorium i być może wprowadzić również mandat Open Access. Czy kilka tysięcy użytkowników równocześnie wprowadzających swoje prace nie spowoduje przeciążenia systemu?

Liczba nowych publikacji w przypadku dużych wdrożeń systemu dLibra sięga od kilku (Wielkopolska Biblioteka Cyfrowa) do nawet dziesięciu tysięcy miesięcznie (Jagiellońska Biblioteka Cyfrowa). Są to w większości skany materiałów bibliotecznych, czyli publikacje bardziej obciążające serwery biblioteki cyfrowej, niż pliki typowe artykuły naukowe - pliki PDF z warstwą tekstową i ewentualnie kilkoma ilustracjami. Przygotowanie repozytorium instytucjonalnego na dużą liczbę użytkowników wprowadzających swoje publikacje może obejmować następujące aspekty:

Zapewnienie niezbędnej infrastruktury serwerowej, wykorzystującej możliwości skalowania systemu dLibra (patrz [EN] 13. Scaling the dLibra System). Szczególnie istotne może być tutaj wydzielenie usługi indeksującej treść i metadane dokumentów na osobny serwer oraz zapewnienie szybkiego funkcjonowania bazy danych, z której korzysta system dLibra.
Przygotowanie kopii portalu WWW biblioteki cyfrowej dedykowanej na potrzeby wprowadzania publikacji przez autorów metodą samoarchiwizacji. Taka kopia portalu WWW może być uruchomiona na osobnym serwerze, a jej funkcjonalność może zostać ograniczona tylko do dostępu do konta użytkownika, dodawania nowych i przeglądania już dodanych publikacji. Dzięki temu nawet w przypadku niezwykle dużego ruchu generowanego przez autorów, czytelnicy będą obsługiwani przez niezależny portal.
Zapewnienie odpowiedniej liczby moderatorów publikacji, którzy będą nadzorować poszczególne grupy autorów i wprowadzane przez nich publikacje np. opiekunowie poszczególnych instytutów. Tego typu organizacja jest możliwa poprzez przypisywanie poszczególnym autorom ich katalogów domowych oraz opiekunów tych katalogów domowych. Możliwe jest przypisywanie wielu autorów do jednego moderatora, jak i wielu moderatorów do jednej grupy autorów.
Zapewnienie zupełnie awaryjnego rozwiązania na wypadek przeciążenia systemu. Jeżeli np. ze względu na rozporządzenie władz uczelni wszyscy pracownicy naukowi będę próbować na ostatnią chwilę wprowadzić swoje publikacje, system może ulec przeciążeniu niezależnie od tego jakie kroki techniczne wcześniej podejmiemy. Na taki wypadek warto mieć przygotowany plan awaryjny polegający np. na posiadaniu odpowiednio pojemnego adresu e-mail, który może pełnić rolę bufora w czasie gdy system autoarchiwizacji jest niedostępny.

Dokument PDF należy tworzyć zgodnie z poniższą konwencją:

Tytuł dokumentu - największy fragment tekstu na górze strony, pisany czcionką w rozmiarze co najmniej 24 pkt. Należy używać tej samej czcionki dla całego tytułu i upewnić się, że wszystkie inne teksty na stronie utworzone są mniejszą czcionką niż tytuł - w przeciwnym razie, ten drugi, większy tekst, może być błędnie interpretowane jako tytuł.

Autorzy dokumentu - umieszczeni tuż przed lub tuż po tytule, nieco mniejszą czcionką, która jest większa niż zwykły tekst, np. z przedziału 16-23 pt. Należy używać tej samej czcionki dla wszystkich nazwisk autorów i upewnić się, że treści nagłówków sekcji wykorzystują mniejszą czcionkę niż autorzy artykułu. W przeciwnym razie, ten drugi, większy, tekst może być błędnie interpretowany jako autor. Poszczególnych autorów należy rozdzielić przecinkami lub średnikami, pomijając ich afiliacje, stopnie i certyfikaty. W stosownych przypadkach można użyć formatu: "Author: John Smith".

Bibliografia – umieszczona na końcu dokumentu i odpowiednio zatytułowana, np. „References” lub „Bibliography”.

Odwołania - Poszczególne odwołania wewnątrz tekstu powinny być odpowiednio numerowane w postaci: "1. - 2. - 3." lub "[1] - [2] - [3]". Tekst każdego odwołania powinien zawierać cytowanie w powszechnie stosowanym formacie.: "J. Biol. Chem., Vol. 234, Nr. 8, str. 1971/75, sierpień 1959". Jeśli bibliografia nie została jeszcze opublikowana, należy podać datę jej obecnej wersji, na przykład, "12 sierpnia 2009".