Zlot Zimowy 2018/Program/Wikidane i Wikisłownik - Notatki z dyskusji

Notatki z dyskusji w ramach sesji Wikidane i Wikisłownik podczas Zlotu Zimowego 2018.

Notatki nie omawiają w szczegółach zawartości slajdów przedstawionych w poprzedzającej dyskusję prezentacji, lecz starają się zebrać temat i pytania podniesione w trakcie rozmowy.

Ogólne

Jeśli dane ustrukturalizowane zostaną przeniesione do Wikidanych, to co pozostanie na Wikisłowniku?

Wszystkie "nieustrukturalizowane" rzecz jasna pozostaną na Wikisłowniku, np. informacje etymologiczne (które są bardziej opisowe)
Społeczności Wikisłowników będą mogły same decydować, które dane z Wikidanych chcą wykorzystywać na swoim Wikisłowniku. Nie ma "obowiązku" używania wszystkiego, co jest w Wikidanych. Wydaje się, że taki "obowiązek" byłby z założenia nawet nie możliwy do zrealizowania w praktyce. Zakładamy, że możliwe jest modelowanie tych samych słów, tych języków, w różny sposób, zakładamy więc także, że można wybrać te dane, które odpowiadają zastosowaniu danego Wikisłownika, lub każdego innego użytkownika Wikidanych.
Działania związane z określonymi tematami, np. kategoryzowanie, tworzenie zbiorów tematycznych, itp, oraz inne tego rodzaju prace będą mogły być wykonywane na Wikisłownikach tak, jak do tej pory (chociaż wydaje się, że wykorzystanie ustrukturalizowanych danych może te prace usprawnić).
Nie zostało to wystarczająco podkreślone w trakcie dyskusji na Zlocie, ale trwają w zespole Wikimedia Deutschland prace na umożliwienie edytowania Wikidanych po stronie klienta, tj. wikiprojektu, który wyświetla dane z Wikidanych. Prace na mają na celu stworzenie edytora, który umożliwi dodawanie, edytowanie, uzupełnianie danych Wikidanych po stronie wikiprojektu. W ten sposób, Wikisłowniki nie byłyby wyłączenie interfejsem (skórką) wyświetlającym dane z Wikidanych. Wprost przeciwnie, społeczności Wikisłowników otrzymałaby możliwość dodawania danych, które nie tylko byłyby wykorzystywane przez ten Wikisłownik, ale które mogłyby być używane w innych wikisłownikach, w innych projektach Wikimediów, a nawet poza sferą projektów Wikimedia. Prace te są obecnie w fazie szczegółowego planowania i opracowywania prototypów. Na początkowym pilotażowym etapie koncentrujemy się na edytowaniu Wikidanych z poziomu Wikipedii, ale wydaje się, że funkcjonalność taka byłaby również bardzo przydatna dla Wikisłowników. Co więcej, wydaje się, że "edytowanie z poziomu klienta" będzie nawet bardziej przydatne dla Wikisłowników niż np. Wikipedii, bo Wikisłownik ze swej natury zawiera zdecydowanie więcej danych ustrukturalizowanych.

Podniesiono kwestie współpracy i porozumienia ze społecznością Wikidanych. Wydaje się, że w grze byłoby nawet więcej niż dwie społeczności: obecna społeczność Wikidanych, społeczności poszczególnych Wikisłowników, może się także pojawić społeczność zajmującą się danymi leksykograficznymi na Wikidanych, niekoniecznie związana z określonym Wikisłownikiem bądź Wikisłownikami.

Wydaje się, że kwestia współpracy z innymi grupami, i ryzyko zdenominowania jednej grupy przez inną/inne jest najważniejszych nietechnicznym wyzwaniem. Kwestia ta wymaga dogłębnego przemyślenia i opracowania środków, które umożliwiłyby owocną współpracę. Działania te muszą się odbywać we współpracy z zainteresowanymi społecznościami.

Przykładowym polem potencjalnych różnic zdań są kwestie referencji i źródeł. Niektóre Wikisłowniki wydają się mniej wymagające w kwestii źródeł niż np. polski Wikisłownik. Rodzi to pytanie, jak uniknąć sytuacji, gdy jedna ze społeczności będzie próbowała narzucić swoje preferencje w kwestii jak np. źródła na inne, np. mniej liczne, społeczności. Jako inny przykład pola, w którym uzgodnienie między społecznościami może być wymagane i kluczowe, podano kwestie normatywne.

Wspomniano także możliwy problem używania do innych celów właściwości stworzonych na potrzeby opisu danych leksykograficznych, co może prowadzić do niekonsekwencji czy ogólnie mówiąc bałaganu. Musi być jasne, do opisu jakich obiektów dana własność została stworzona. Ponadto, wydaje się, że narzędzia podobne do istniejącego rozszerzenia WikibaseQualityConstraints (umożliwia np. określenie że dana własność może być jedynie używana z elementami danego typu) mogłyby zautomatyzować wykrywanie i poprawianie takich niewłaściwych użyć właściwości.

Zwrócono uwagę, że o ile wydaje się, że zapisywanie danych dotychczasowych referencji z Wikisłowników jako deklaracji na Wikidanych jest techniczne możliwe, to obecny interfejs dodawania i edytowania deklaracji na Wikidanych nie jest przyjazny dla użytkownika. Delikatnie mówiąc. Można by też powiedzieć, że edytowanie deklaracji to koszmar.

Pytanie: istnieją np. bazy danych wymowy. Czy można by odnosić się do nich na Wikidanych? Tak, wydaje się, że mechanizm deklaracji nadaje się dobrze do tego celu.

Model danych

Czy definicje Sensów (znaczenia, w modelu nazywane "glosami") mają być zwykłymi łańcuchami znaków (strings)? W polskim Wikisłowniku powszechne jest używanie linków w definicjach, co umożliwia dalsze eksplorowanie znaczenia. Jeśli glosy mają być zwykłym "czystym" tekstem, używanie linków nie byłoby możliwe. Obecnie w prototypie są to rzeczywiście "czyste" łańcuchy znaków. Jednak kwestia wykorzystania jakiegoś rodzaju języka znaczników (tekst ze specjalnymi znacznikami) jest analizowana przez zespół projektowy. Możliwość określenia więcej niż tekstu pojawiła się już w innych zastosowaniach, przykład linków w definicjach na polskim Wikisłowniku to kolejny świetny przykład.

Wspomniano kwestie automatyczne generowania form odmiany.

Wydaje się, że proponowany model nie stoi na przeszkodzie.
Generowanie form odmiany możliwie wymagałoby dedykowanych narzędzi, interfejsów użytkownika, itp.

Wspomniano również kwestie użycia deklaracji i kwalifikatorów. Dzięki nim możliwe byłoby np. określenie że pewne znaczenie jest przestarzałe, potoczne, albo np. wariant wymowy lub zapisu jest specyficzny dla pewnego regionu.

Dyskutowaliśmy pokrótce na temat modelowania "kategorii leksykalnych" w różnych językach.

Kategorie leksykalne nie mają w zamierzeniu być "uniwersalne" i używane do opisu słów wszystkich języków.
Kategorie leksykalne mają być elementami (Q-obiektami), prawdopodobnie społeczności zdecydują się ograniczyć zbiór kategorii leksykalnych do elementów określonej klasy.
Wydaje się możliwe i dość prawdopodobne, że do opisu słów różnych języków będą wykorzystywane różne zbiory kategorii leksykalnych.

Wspomniano także o kwestii wariantów regionalnych - wydaje się, że proponowany model umożliwia modelowanie różnego rodzaju wariantów.

Wspomniano kilka rodzajów informacji, które są obecnie gromadzone w Wikisłownikach i zastanawiano się, jak można by je opisać w Wikidanych, np.

znaki języków migowych,
znaki chińskie,
morfemy esperanto,
końcówki itp.
emotki.

Inne

Zauważono, że w systemie testowym nie można tworzyć kont użytkowników, co utrudnia testowanie. Rejestracja kont użytkowników została tymczasowo zablokowana ze względu na problemy z plagą spamerskich konto tworzonych na potęgę. Rejestracja zostanie wkrótce otwarta ponownie, gdy tylko rozwiążemy problem spamerów.

Marek Mazurkiewicz wspomniał krótko o swoim pomyśle zapisywania danych językowych w Wikidanych. W tym podejściu głównym elementem byłyby znaczenia (sensy w modelu WMDE). Do znaczeń podłączone byłyby słowa, formy, itd. Pomysł ciekawy i warto porównać ten model z modelem zaproponowanym przez zespół programistów Wikidanych. Uwagi podniesione na szybko:

jako, że znaczenia są w dużej mierze "szczególne" dla danego języka, tj. nie mają dokładnych odpowiedników w innych językach, czy zaproponowane rozwiązanie nie doprowadziłoby do sytuacji, że liczba elementów-znaczeń byłaby ogromna? Model zaproponowany przez zespół Wikidanych wydaje się operować na mniejszej liczbie elementów "nadrzędnych".
Zaproponowane rozwiązanie preferuje znaczenie ponad manifestację (reprezentację) słowa. Nie ma w tym nic złego. Z punktu widzenia pewnych zastosowań lub podejść, preferowane mogłoby być rozwiązanie odwrotne (trochę jak obecnie na Wikisłownikach)