WG 2019-4
Wniosek o wikigrant nr WG 4/2019
dotyczący adaptacji 1. tomu słownika turecko-tureckiego
STOWARZYSZENIA WIKIMEDIA POLSKA
zgłoszony dnia 26 stycznia 2019 roku, rozpatrzony dnia 31 stycznia 2019 roku przez Komisję Wikigrantów
dotyczący adaptacji 1. tomu słownika turecko-tureckiego
Nazwa użytkownika | Comp1089 | Status | wycofany |
---|---|---|---|
Uzasadnienie | Grant ma być przeznaczony na rozpoznanie programem OCR 1. tomu słownika turecko-tureckiego. Jest to niezbędne, abym mógł korzystać z ww. tekstu, używając programu odczytu ekranu (np. NVDA, z którego na co dzień korzystam). Adaptacja tego słownika ułatwi mi uzupełnienie oraz utworzenie odpowiednich haseł na polskim Wikisłowniku. Obecnie mam ten słownik w postaci drukowanej, dokładna liczba stron w 1. tomie jest do doprecyzowania. | ||
Harmonogram realizacji projektu |
| ||
Kosztorys | ok. 300 zł, dokładna kwota do doprecyzowania | Suma | 300,00 PLN |
Komisja rozpoznała wniosek w trybie § 14 ust. 4 Regulaminu. W głosowaniu przez e-mail Komisja stosunkiem głosów 3/0/0 [za/przeciw/wstrz. się], przy czym dwóch członków Komisji nie wzięło udziału w głosowaniu, postanowiła o przyznaniu dofinansowania zgodnie z wnioskiem.
Prosimy o dokładne zapoznanie się z zasadami refundacji, w szczególności z punktem dotyczącym informacji przesyłanych do Stowarzyszenia. Prosimy również o to, by dokumentacja przesłana do Stowarzyszenia zawierała informacje pozwalające zidentyfikować jej przeznaczenie, co ułatwi rozliczenie grantu. Dziękujemy za zgłoszenie i życzymy owocnej pracy. W imieniu Komisji, Ankry (dyskusja) 22:20, 31 sty 2019 (CET) |
Sprawozdanie użytkownika | WG 2019-4/sprawozdanie | Data zakończenia | 31 grudnia 2021 |
---|---|---|---|
Podsumowanie Komisji | Grant uznany za niezrealizowany w związku z brakiem podjęcia działań przez wnioskodawcę. Wobec braku udokumentowania poniesienia kosztów, prawdopodobnie stał się również bezprzednmiotowy, Ankry (dyskusja) 18:30, 31 gru 2021 (CET) W związku z brakiem potrzeby finansowania projektu przez Stowarzyszenie status wniosku zmieniono na wycofany. Wiktoryn (dyskusja) 19:33, 7 kwi 2023 (CEST) |
- Dyskusja i uwagi
- Mam dwa pytania:
- Czy mógłbyś z grubsza oszacować jaką liczbę haseł będziesz w stanie uzupełnić / opracować w podanym terminie?
- W oparciu o co oszacowałeś koszt skanowania / OCR-u?
- Rozmawiałem z wnioskodawcą (jesteśmy na ZZ). Ma w domu 10 tomów i deklaruje chęć wrzucenia całości do Wikisłownika (z koniecznymi zmianami). Do tego potrzebuje zrobić OCR z "normalnego" tekstu na Braille'a. Poradziłem mu, żeby zaczął pilotażowo od jednego tomu. Liczba haseł zostanie oszacowana, kiedy wnioskodawca wróci do domu (osoba widząca musi spojrzeć ile haseł mieści się na jednej stronie, może na okładce jest to napisane - w internecie opis tego słownika nie jest łatwy do znalezienia). Koszt został oszacowany na podstawie cennika wyspecjalizowanej jednostki UW. Tar Lócesilion (queta) 18:33, 26 sty 2019 (CET)
- Wydaje mi się, że możemy poczekać kilka dni na informacje. Ankry (dyskusja) 19:07, 26 sty 2019 (CET)
- Poprawię, że nie "z normalnego tekstu na Braille'a", tylko z czarnodruku do postaci, którą można byłoby odczytać, używając czytnika z ekranu. Z tej strony wynika, iż skanowanie kosztowałoby 10 gr za stronę, nie znalazłem tam natomiast informacji o dodatkowej cenie za rozpoznawanie (w związku z czym kwota końcowa może się okazać nieco większa, niż 300 zł). Tom I ww. słownika zawiera 702 strony, na każdej ze stron zmieściłoby się od 20 do 40 haseł (zależy to od długości komentarza do każdego hasła). --Comp1089 (dyskusja) 18:51, 28 sty 2019 (CET)
- Muszę się wtrącić. Stopa błędów w OCR. Prawie 20 lat temu powstała Polska Biblioteka Internetowa, zawierająca i skany, i teksty z OCR. Te ostatnie były często bezużyteczne - po prostu w umowie z wykonawcą nie było słowa o weryfikacji odczytanego tekstu. Co prawda pierwszy program OCR, jaki spotkałem - Recognita - był napisany przez Węgrów i demonstrowany na tekstach w języku tureckim. Potrzebna będzie pewnie pomoc przy weryfikacji OCR (porównanie skanu z OCR). Litwin Gorliwy (dyskusja) 22:04, 28 sty 2019 (CET)
- Też się wtrącę: przez 20 lat wiele się zmieniło. Na polskojęzycznych Wikiźródłach obecnie masowo wykorzystujemy OCR, czy to wykonany samodzielnie, czy przez biblioteki cyfrowe (najczęściej za pomocą programu ABBYY), czy też przez Google (ichnie natywne narzędzia) i stopa błędów dla języka polskiego przy dobrej jakości skanów jest tak niska, że zwłaszcza w przypadku nowszych książek (gdzie nie ma problemu starych form językowych) błędów praktycznie nie ma (aż bywa nudno). Z drugiej strony, o ile dobrze zrozumiałem wniosek, nie chodzi o przepisanie słownika do wikisłownika tureckiego (co byłoby pewnie niezgodne z prawem autorskim), lecz o przeczytanie go i wprowadzenie informacji z niego do wikisłownika polskiego (zgaduję, że po przetłumaczeniu). Chciałem zwrócić uwagę, że wnioskodawca deklaruje podstawową znajomość języka tureckiego, jak też pewną znajomość języków pokrewnych (baszkirskiego, tatarskiego). Nie wiem, jak wygląda kwestia jakości OCR dla języka tureckiego, ale myślę, że warto spróbować. Ankry (dyskusja) 23:16, 28 sty 2019 (CET)
- Muszę się wtrącić. Stopa błędów w OCR. Prawie 20 lat temu powstała Polska Biblioteka Internetowa, zawierająca i skany, i teksty z OCR. Te ostatnie były często bezużyteczne - po prostu w umowie z wykonawcą nie było słowa o weryfikacji odczytanego tekstu. Co prawda pierwszy program OCR, jaki spotkałem - Recognita - był napisany przez Węgrów i demonstrowany na tekstach w języku tureckim. Potrzebna będzie pewnie pomoc przy weryfikacji OCR (porównanie skanu z OCR). Litwin Gorliwy (dyskusja) 22:04, 28 sty 2019 (CET)
- Od czasu tej deklaracji też wiele się zmieniło, teraz śmiało mogę powiedzieć, że po turecku mówię na poziomie tr-2. --Comp1089 (dyskusja) 10:57, 29 sty 2019 (CET)
- Dodam jeszcze, iż dodanie 14-15 tys. haseł w tak krótkim terminie byłoby dla mnie trudne (m.in. z powodów technicznych). W podanym terminie jestem gotów dodać / uzupełnić pierwsze 1500 haseł z I tomu, zaś w ciągu kolejnych 6 miesięcy -- kolejne 1500. Moim zdaniem, taki wniosek do tureckiej kategorii pl.wikt byłby dosyć istotny. --Comp1089 (dyskusja) 21:48, 29 sty 2019 (CET)
- @Comp1089 Chciałem zwrócić uwagę, że od chwili przyznania grantu upłynęły 3 miesiące, a nadal nie została utworzona strona sprawozdania. Czy grant jest realizowany? Ankry (dyskusja) 18:20, 30 kwi 2019 (CEST)
- @Comp1089 Wczoraj minął termin, jaki wyznaczyłeś sobie na realizację drugiej części grantu, nie utworzyłeś jednak nawet strony sprawozdania. Możesz jakoś się do tej sytuacji odnieść? einsbor dyskusja 07:32, 2 sty 2020 (CET)
- @Ankry, @Einsbor: po terminie wracam do realizacji zadania. Wniosek nie stał się bezprzedmiotowy, jednakże nie poniosłem wnioskowanych kosztów, gdyż ww. zadania wykonano na Uniwersytecie Stambulskim w ramach innego projektu. Comp1089 (dyskusja) 14:10, 31 mar 2023 (CEST)
- @Comp1089: Wniosek bezprzedmiotowy w tym sensie, że prace zostały wykonane bez wsparcia Stowarzyszenia :). Powodzenia w dalszych pracach i zapraszam do korzystania z Wikigrantów w przyszłości :). Wiktoryn (dyskusja) 20:45, 31 mar 2023 (CEST)
- @Comp1089 Wczoraj minął termin, jaki wyznaczyłeś sobie na realizację drugiej części grantu, nie utworzyłeś jednak nawet strony sprawozdania. Możesz jakoś się do tej sytuacji odnieść? einsbor dyskusja 07:32, 2 sty 2020 (CET)