Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

The Idea of a Synonym Dictionary

Synonyms are used for increasing the effectiveness of the resource browsing mechanism in digital libraries based on the dLibra system. The dLibra system automatically expands the user’s search with words/phrases stored in the synonym dictionary. Therefore, the user can find more publications which may be of interest to him or her. Another reason for creating that mechanism was to make users’ searches independent from the conventions of describing digital objects which are used in the given digital library (for example, using various terms for the same concept).

Let us clarify the operating principle of that mechanism with an example. The user writes “Shakespeare” om the author search field. If the synonym dictionary is empty, the query will not be expanded, and only those publications will be found the metadata (or textual content) of which contain the “Shakespeare” string. If, on the other hand, the synonym dictionary defines a synonym, “Szekspir”, for “Shakespeare”, then the system will be able to expand the search and browse the search index taking into account the Polish spelling of that surname. The user does not have to know which form of the surname was used by the editor when they were describing the publication. It should be emphasized that if the user from the example typed in the “Szekspir” search query, the search would likewise be expanded to include the “Shakespeare” spelling.

Information about concept hierarchies cannot be stored in synonym dictionaries created in the dLibra system.

The Structure of a Synonym Dictionary

The dLibra system stores a so-called synonym dictionary for every attribute in the metadata schema, in every metadata language. That dictionary contains at least all the values used in the metadata of the resources of the library. The dictionary can also contain words/phrases which are not used directly in the metadata.

Every attribute dictionary for a given language is divided into synonym groups. Every group may contain one or more attribute values. In principle, values belonging to one group should be synonyms, equivalent words, or they should be related in another way.

  1. In every group, one group is distinguished and called ‘base value’.
  2. A group is always named after its base value.
  3. Within an attribute dictionary for a given language, there cannot be two or more groups with the same name.
  4. Within a group, there cannot be two or more values with the same name. There can be values with the same name for the same attribute in various groups.

Synonym dictionaries can be modified in the Editor Application or in the Administrator Application. In order to add values to a synonym dictionary, the user needs appropriate permissions (not every editor may have them).

Advanced management of synonym dictionaries is possible in the Administrator Application. For example, if a certain number of publications have been ascribed the “Shakespeare” value in the “Author” attribute and no synonym was ascribed to that value, then any number of synonyms can be added easily, without the need to edit every publication separately. If an editor with appropriate permissions adds, at any moment, the “Szekspir” synonym to the “Shakespeare” value, then all publications with the “Shakespeare” value will also be found in response to the “Szekspir” search query.

Controlled Dictionaries

Every synonym dictionary can be marked as controlled. In such a case, the editor will only be able to use the values entered in that dictionary but not add a new value to it. Controlled dictionaries are useful for attributes which have a limited number of values, for example, the “resource” attribute. It usually does not make sense to use a controlled dictionary for such attributes as “Title” or “Author”.

Idea słownika synonimów

Idea tzw. synonimów ma na celu zwiększenie możliwości mechanizmu wyszukiwania zasobów w bibliotekach cyfrowych opartych na systemie dLibra. System dLibra w sposób automatyczny rozszerza zapytanie użytkownika o słowa/frazy przechowywane w słowniku synonimów. Dzięki takiemu postępowaniu użytkownik ma możliwość znalezienia większej liczby potencjalnie interesujących publikacji. Mechanizm ten został stworzony również aby zapytanie użytkownika mogło być niezależne od stosowanych w konkretnej bibliotece konwencji opisu obiektów cyfrowych (np. wykorzystanie różnych terminów na określenie tego samego pojęcia).

Aby lepiej zrozumieć zasadę działania słownika rozpatrzmy następujący przykład. Użytkownik podaje w zapytaniu w polu autor nazwisko Shakespeare. Przy pustym słowniku synonimów, zapytanie nie zostanie rozszerzone i odnalezione zostaną tylko te publikacje, których metadane (lub zawartość tekstowa) zawierają ciąg znaków Shakespeare. Jeżeli natomiast w słowniku synonimów dla słowa Shakespeare zdefiniowany zostanie synonim Szekspir, system będzie w stanie rozszerzyć zapytanie i przeszukać indeks wyszukiwawczy również pod kątem polskiej wersji pisowni tego nazwiska. Dzięki temu użytkownik nie musi wiedzieć, jakiej formy zapisu nazwiska użyli redaktorzy podczas opisywania publikacji. Należy podkreślić, że w powyższym przykładzie zapytanie zostanie rozszerzone zarówno dla zapytania Shakespeare (rozszerzenie o Szekspir) jak i w przypadku gdy użytkownik wpiszę Szekspir (rozszerzenie o Shakespeare).

Słowniki synonimów tworzone w dLibrze nie pozwalają na przechowywanie informacji o hierarchiach pojęć.

Konstrukcja słownika synonimów

System dLibra przechowuje tzw. słownik synonimów dla każdego z atrybutów w schemacie metadanych w każdym języku metadanych. W słowniku tym znajdują się co najmniej wszystkie wartości, które są użyte w metadanych zasobów biblioteki. Słownik może zawierać także słowa/frazy nieużywane bezpośrednio w metadanych. 

Słownik danego atrybutu dla konkretnego języka podzielony jest na grupy synonimów. Każda grupa może zawierać jedną lub więcej wartości atrybutów. W założeniu wartości należące do jednej grupy powinny być synonimami, wyrazami bliskoznacznymi lub być w jakikolwiek inny sposób powiązane ze sobą.

  1. W każdej grupie wyróżniona jest jedna wartość, zwana wartością bazową.
  2. Grupa zawsze bierze swoją nazwę od wartości bazowej.
  3. W obrębie danego słownika atrybutu dla konkretnego języka nie może istnieć więcej niż jedna grupa o tej samej nazwie.
  4. W obrębie danej grupy nie może być więcej niż jedna wartość o tej samej nazwie, natomiast wartości o tej samej nazwie mogą występować w różnych grupach dla tego samego atrybutu.

Słowniki synonimów mogą być modyfikowane z poziomu aplikacji redaktora bądź z poziomu aplikacji administratora systemu dLibra. Aby dodawać wartości do słownika synonimów konieczne jest posiadanie odpowiednich uprawnień (nie każdy redaktor musi posiadać takie uprawnienia).

Aplikacja administratora umożliwia zaawansowane zarządzanie słownikami synonimów jeśli przykładowo jakaś liczba publikacji została oznaczona w atrybucie Autor wartością Shakespeare i ta wartość nie miała przypisanego żadnego synonimu, to w prosty sposób można dopisać dowolną liczbę synonimów bez konieczności edytowania każdej publikacji osobno. Na przykład jeśli uprawniony redaktor do wartości Shakespeare doda w dowolnym momencie synonim Szekspir, to wszystkie publikacje oznaczone wartością Shakespeare będą również wyszukiwane po zadaniu zapytania Szekspir.

Słowniki kontrolowane

Każdy słownik synonimów może być oznaczony jako kontrolowany. Oznacza to, że redaktor będzie mógł tylko skorzystać z wartości wprowadzonych do tego słownika - nie będzie mógł dodać nowej wartości do tego słownika. Słowniki kontrolowane mają sens w atrybutach, które mają ograniczoną liczbę wartości, np. typ zasobu. W przypadku atrybutów typu tytuł lub autor zastosowanie słownika kontrolowanego z reguły nie ma uzasadnienia.