Wiktionary
Wikirečnik | |
---|---|
engleski Wikirečnik | |
![]() | |
![]() | |
Url | wiktionary.org |
Komercijalno | br |
Vrsta lokacije | Mrežni rječnik |
registracija | Opciono |
jezici) | 170 |
Lokacija servera | Majami |
Vlasnik | Wikimedia fondacija |
autor | Jimmy Wales |
Početak rada | 12. decembra 2002 |
Alexa rangiranje | |
![]() |
Wiktionary ( eng. Wiktionary) - besplatno dopunjeni višenamjenski višejezični rječnik i tezaurus zasnovan na wiki engine-u . Jedan od projekata Fondacije Wikimedia . Prvobitno objavljeno na engleskom 12. decembra 2002. godine .
Rječnik sadrži gramatičke opise, tumačenja i prijevode riječi. Osim toga, članci mogu odražavati informacije o etimologiji , fonetskim svojstvima i semantičkim vezama riječi. Dakle, Vikirječnik je pokušaj da se u jednom proizvodu objedine gramatički , eksplanatorni , etimološki i višejezični rječnici, kao i tezaurus .
Podaci iz Vikirječnika se aktivno koriste u rješavanju različitih problema vezanih za mašinsku obradu teksta i govora.
.Leksikografski koncept
Kroz međusobnu povezanost između različitih jezičkih sekcija Vikirječnika, kao i između članova rječnika i drugih projekata Vikimedijine fondacije , članovi svakog od njih mogu koristiti koncepte, alate i leksikografski materijal kreiran od strane njihovih kolega izvornih govornika. U toku rada na različitim jezičkim dijelovima rječnika formiran je složen koncept univerzalnog leksikografskog izvora, koji je po prvi put postao moguć zahvaljujući elektronskim tehnologijama. Koncept u konačnici pretpostavlja potpun, sveobuhvatan opis svih leksičkih jedinica svih prirodnih (i osnovnih umjetnih) jezika koji imaju pisani jezik. Potpunost opisa znači prisutnost informacija o fonetici, morfologiji, sintaksičkim i semantičkim svojstvima leksičke jedinice, njenoj etimologiji, kompatibilnosti i frazeologiji. Potpunost i stepen konzistentnosti u implementaciji ovog koncepta mogu varirati u različitim jezičkim dijelovima projekta. [ izvor nije naveden 188 dana ]
U svakoj jezičnoj sekciji centralni je jezik "naslova" - svi članci su pisani isključivo na njemu, osim toga, cilj je obezbijediti prijevode riječi i drugih jedinica ovog jezika na najveći mogući broj drugih jezika. U pravilu se riječi iz drugih jezika prevode samo na ovaj „naslovni“ jezik. Dakle, u Ruskom Vikirječniku za ruske riječi daju se tumačenja i prijevodi na strane jezike, za strane riječi, umjesto tumačenja, daju se prijevodi na ruski.
Kada se opisuje morfologija, pokušava se dati najpotpunija slika fleksije, uključujući naznaku klase fleksije. Konkretno, morfološke informacije o ruskim leksemama date su u skladu s klasifikacijom koju je predložio A. A. Zaliznyak . [ izvor nije naveden 188 dana ]
Da bi se dopunio Vikirečnik, napravljena je opsežna lista referenci ; engleski Vikirečnik je razvio pravila za uključivanje termina u rečnik (pogledajte Kriterijumi za uključivanje ). Za razliku od ruske Wikipedije , gdje se prioritet u odabiru materijala daje autoritativnim izvorima [Napomena 1] , u ruskom Vikirečniku prevladava analiza upotrebe riječi koju je izvršio urednik članka [Napomena 2] .
Tezaurus
Vikirječnik sadrži sljedeće semantičke odnose: sinonimi , antonimi , hiperonimi , hiponimi , kohiponimi , holonimi , meronimi , paronimi . [ izvor nije naveden 188 dana ]
Wikipedia i Vikirečnik
Vikirječnik ne uključuje detaljne opise činjenica i enciklopedijskih informacija. Ipak, Vikirječnik pruža jedinstvene informacije koje nisu dostupne na Wikipediji: fraze, izreke, kratice, akronimi, opisi pravopisnih grešaka, pojednostavljeni / iskrivljeni pravopisi / izgovor riječi, kontroverzni slučajevi upotrebe, protologizmi , onomatopeja , različiti stilovi (npr. ) i predmetne oblasti[2] . Tako se Wikipedija i Vikirečnik međusobno nadopunjuju.
Vikirečnik je sličan Wikipediji po tome što (1) postoje interne veze ka člancima o rečima unutar Vikirečnika, (2) postoje kategorije, (3) postoje interwiki veze do članaka o istoj reči u rečniku stranog jezika[ 2] .
Odeljak na ruskom jeziku
Dinamika razvoja ruskog Vikirječnika
U ovom odeljku nedostaju veze do izvora informacija . |
Ruska sekcija Vikirečnika nastala je u proljeće 2004. godine . Godinu i pol dana praktički se nije razvijao, nasumično se dopunjavao, uglavnom nekvalitetnim materijalom. Situacija se počela mijenjati krajem 2005. - početkom 2006. godine . [ izvor nije naveden 188 dana ]
Godine 2006. imenovan je prvi Schwallex administrator, obim članaka je skoro učetvorostručen u odnosu na prethodnu godinu, stvoren je moćan alat za opisivanje morfologije i počeo se formirati razvijen sistem semantičkih kategorija.
Do jeseni 2006. broj članaka u Ruskom Vikirečniku dostigao je 10.000; zatim, zahvaljujući kreiranju bota koji koristi vokabulare drugih sekcija Vikirečnika za generisanje praznih članaka u ruskoj sekciji, dodato je još oko 70.000 članaka za mesec i po dana. Vikirječnik je 7. novembra 2006. prešao granicu od 80.000, a 10. decembra 2006. godine dosegnut je broj od 100.000 unosa. Na dan 17. decembra 2018. broj članaka je premašio 1.000.000, a broj aktivnih učesnika bio je oko 230.
Za razliku od situacije sa tradicionalnim rječnicima, kompletnost Vikirječnika ne može se adekvatno ocijeniti formalnim pokazateljem broja natuknica. Automatski brojač ne pravi razliku između polupraznih praznina i istinski informativnih članaka, štoviše, ne uzima u obzir unutarjezičnu i međujezičnu homonimiju. Na primjer, unos vokabulara bor je naveden kao jedan članak, dok ovaj članak opisuje nekoliko homonimnih leksema ruskog jezika, kao i leksema istog imena na drugim jezicima (bugarski, tatarski) - u tradicionalnim rječnicima ovaj materijal bi se sastavili i uzeli u obzir u obliku nekoliko članaka... [ izvor nije naveden 188 dana ]
Poređenje sa drugim Vikirečnikima

Od avgusta 2008. godine, ruski Vikirečnik je došao na prvo mesto u pogledu veličine baze podataka među svim Vikirečnikima [4] . U isto vrijeme, broj članaka u Ruskom Vikirječniku nije najveći [5] . To je dijelom zbog činjenice da za projekte u kojima ima više članaka nego u ruskom Vikirječniku, članci mogu biti u prosjeku manji, kao što se može vidjeti na web stranici statistike [6] .
Osim toga, ruski Vikirječnik, u poređenju s drugim dijelovima Vikirečnika, sadrži veću količinu pomoćnih informacija, uključujući tabele za pretraživanje, liste učestalih riječi, itd. "," Indekse ", itd.). Značajan broj članaka u Ruskom Vikirječniku su još uvijek praznine koje generiraju botovi. Iako ponekad možete naići na kritiku velikog broja lažnih članaka, ovaj predizgled ima mnoge prednosti. Prvo, pomaže u bržem stvaranju članaka tako što unaprijed uključuje neke informacije, kao što je dio govora riječi koja se opisuje. Drugo, struktura članaka se standardizuje. Zbog raširene upotrebe šablona (koje obično odmah postavljaju botovi prilikom automatskog kreiranja članaka), postaje moguće centralno mijenjati izgled više članaka odjednom. Prisutnost velikog broja predložaka također pomaže u daljnjem automatiziranom uređivanju već kreiranih članaka - na primjer, za automatsko dodavanje prijevoda prema prethodno pripremljenim rječnicima (pošto je botovima lakše navigirati strukturom članka koji je već označen uz specijalizovane konstrukcije, a ne na ljudskom jeziku). Posebnost ruskog Vikirječnika je dobro razvijen koncept razvoja (koji se može naći na glavnoj stranici). Zbog dobro razvijenog koncepta i široke upotrebe šablona, članci u ruskom Vikirječniku izgledaju više istog tipa nego u mnogim drugim projektima (u osnovi isti broj odjeljaka, njihov redoslijed, dizajn svakog odjeljka). [ izvor nije naveden 188 dana ]
Autori su izračunali broj rječničkih natuknica o ruskim riječima, broj članaka sa i bez tumačenja u dva Vikirječnika (na slici). Potvrđena je politika urednika engleskog Vikirečnika (da se ne stvaraju prazni članci): samo 5,57% rječnika o ruskim riječima je bez tumačenja. U Ruskom Vikirječniku ima 60,39% takvih članaka. Međutim, ruski Vikirečnik (od 2011.) sadrži skoro 3,4 puta više unosa sa tumačenjima ruskih reči od engleskog Vikirečnika: 53,6 hiljada naspram 15,7 hiljada[3] .
Primjena u NLP zadacima
Za korištenje leksikografskih podataka vikrijera u rješavanju problema automatske obrade teksta i govora , potrebno je tekstove rječničkih natuknica ( polustrukturirani podaci[7] ) pretvoriti u strojno čitljiv format [8] [9] [ 10] .
Izdvajanje podataka iz wikirečnika nije lak zadatak. Mogu se razlikovati sljedeće poteškoće[11] : (1) redovne i česte promjene kako podataka tako i strukture članaka, (2) različiti vikriječnici imaju različitu strukturu i format članaka [Napomena 3] , (3) wiki tehnologija je u početku fokusiran na upotrebljivost ljudsku, a ne mašinsku obradu.
Postoji nekoliko parsera za različite wikirečnike [12] :
- DBpedia Wiktionary je jedno od proširenja projekta DBpedia , podaci su izvučeni iz engleskog, francuskog, njemačkog i ruskog Vikirječnika. Izvučeno: jezik, dio govora, interpretacija, semantičke relacije, prijevodi. Za dohvaćanje podataka koriste se: deklarativni opis strukture rječničkog unosa [13] , regularni izrazi [14] i FST- tip konačnog automata [15] .
- JWKTL (Java Wiktionary Library) - API za podatke engleskog i njemačkog Vikirječnika [16] . Izvučeno: jezik, dio govora, tumačenje, citati, semantičke relacije, etimologija i prijevodi. Program je dostupan za nekomercijalnu upotrebu.
- wikokit je parser za engleski i ruski Vikirječnik [17] . Izvučeni su: jezik, dio govora, tumačenje, citati [18] (samo za ruski Vikirječnik), semantičke relacije [19] i prijevodi. Izvorni kod programa dostupan je pod uslovima otvorene više licence .
Uz pomoć wikirječničkih rječnika rješavaju se različiti zadaci vezani za obradu teksta i govora [20] :
- mašinsko prevođenje zasnovano na pravilima između holandskog i afrikaansa ; podaci engleskog i holandskog Vikirečnika i dvije Wikipedije koriste se u okviru sistema Apertium [21] ;
- kreiranje mašinski čitljivog rečnika pomoću NULEX parsera, koji integriše otvorene jezičke resurse: engleski Vikirečnik , WordNet i VerbNet [22] . Za imenicu iz engleskog Vikirječnika izdvojeni su dio govora i oblik množine, za glagole - vrijeme. Tehnika skrapinga ekrana korištena je za izdvajanje podataka iz Vikirječnika;
- prepoznavanje i sinteza govora , gdje Vikirečnik djeluje kao izvor podataka za automatsku konstrukciju rječnika izgovora [23] . Parovi izgovora riječi (transkripcija u IPA sistemu) su izvučeni iz češkog, engleskog, francuskog, njemačkog, poljskog i španjolskog Vikirječnika [Napomena 4] . Kada je označeno, najveći broj grešaka je pronađen u transkripcijama izvučenim iz engleskog Vikirječnika [24] ;
- konstrukcija ontologija [25] i baza znanja [26] ;
- prikaz ontologija [27] ;
- pojednostavljenje teksta . U [28] , složenost riječi je procijenjena na osnovu podataka Vikirječnika. Za riječ iz engleskog Vikirječnika izdvajaju se: veličina rječničke stavke, broj dijelova govora, broj značenja i broj prijevoda. Autori [28] sugeriraju da će jednostavnije, bazičnije, korištene riječi imati više značenja (odnosno, veličina članka će biti veća), više dijelova govora i više prijevoda. Nadalje, “složene” riječi koje se nalaze u tekstu moraju se preformulisati, pronaći više “jednostavnih” ekvivalenata, što će dovesti do pojednostavljenja (adaptacije) teksta;
- označavanje dijela govora . U (Lee et al., 2012) [29], na osnovu podataka iz engleskog Vikirječnika, konstruirani su POS-tageri za osam jezika sa “lošim jezičkim resursima” koristeći skrivene Markovljeve modele . [Napomena 5]
- analiza sentimenta teksta [30] .
vidi takođe
Bilješke (uredi)
- Komentari (1)
- ↑ Wikipedia: Autoritativni izvori
Wikipedijini članci bi trebali biti zasnovani na objavljenim autoritativnim izvorima .
- ↑ Wikirečnik: Leksikografski koncept
Ako postoji neslaganje oko bilo kojeg opisanog svojstva bilo koje jezičke jedinice, prioritet (sa stanovišta dokaza) se daje korpusnim izvorima.
- ↑ Uporedite, na primjer, strukturu i pravila za formatiranje članaka u engleskom Vikirječniku i ruskom Vikirječniku .
- ↑ Ako u rječničkom unosu postoji nekoliko transkripcija, uzima se prva.
- ↑ Izvorni kod programa i rezultati označavanja dijela govora dostupni su na internetu: https://code.google.com/p/wikily-supervised-pos-tagger
- Izvori od
- ↑ wiktionary.org Konkurentna analiza, marketing miks i promet - Alexa (eng.) ... Alexa Internet . - Vikirečnik za globalno rangiranje. Datum tretmana: 09.09.2017.
- ↑ 1 2 Zesch et al, 2008 , str. 2.
- ↑ 1 2 Smirnov et al., 2012 .
- ↑ Statistika Wikirečnika: Veličina baze podataka
- ↑ Statistika Wikirečnika
- ↑ Statistika Wikirečnika: bajtova po članku
- ↑ Meyer i Gurevych 2012 , str. 140.
- ↑ Zesch et al, 2008 , Slika 1, str. 4.
- ↑ Meyer i Gurevych 2010 , str. 40.
- ↑ Krizhanovsky, Transformation, 2010 , str. 1.
- ↑ Hellmann i Auer, 2013 , str.16 u PDF-u, str. 302.
- ↑ Hellmann et al, 2012 , Tabela 1, str. 3.
- ↑ Hellmann et al, 2012 , str. 8-9.
- ↑ Hellmann et al, 2012 , str. deset.
- ↑ Hellmann et al, 2012 , str. jedanaest.
- ↑ Zesch et al, 2008 .
- ↑ Krizhanovsky, Transformation, 2010 .
- ↑ Krizhanovsky, 2011 .
- ↑ Krizhanovsky, Comparison, 2010 .
- ↑ Smirnov et al., 2012 , str. 233-234.
- ↑ Otte and Tyers, 2011 .
- ↑ McFate i Forbus, 2011 .
- ↑ Schlippe et al., 2012 .
- ↑ Schlippe et al., 2012 , str. 4804.
- ↑ Meyer i Gurevych 2012 .
- ↑ ConceptNet 5 . Pristupljeno 17. aprila 2013. Arhivirano 19. aprila 2013.
- ↑ Lin i Križanovski, 2011 .
- ↑ 1 2 Medero i Ostendorf, 2009 .
- ↑ Li et al, 2012 .
- ↑ Chesley et al, 2006 .
Književnost
- Крижановский А. Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных : препринт. — 2010.
- Крижановский А. Сравнение тезаурусов Русского и Английского Викисловарей, преобразованных в машиночитаемый формат : препринт. — 2010.
- Крижановский А. Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды международной конференции «Корпусная лингвистика–2011». — СПб. : С.-Петербургский гос. университет, Филологический факультет, 2011. — С. 217—222. — 348 с. — ISBN 978-5-8465-0005-5 .
- Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. — СПб. , 2012. — Т. 23. — С. 231–253.
- Chesley P., Vincent B., Li Xu, Srihari RK Using verbs and adjectives to automatically classify blog sentiment // Training. — 2006. — Т. 580. — С. 233—235.
- Hellmann S., Brekle J., Auer S. Leveraging the Crowdsourcing of Lexical Resources for Bootstrapping a Linguistic Data Cloud : Proc. Joint Int. Semantic Technology Conference (JIST), Dec 2-4. — Nara, Japan, 2012.
- Hellmann S., Auer S. Towards Web-Scale Collaborative Knowledge Extraction // The People's Web Meets NLP / Gurevych, Iryna; Kim, Jungi. — Springer, 2013. — С. 287—313. — 378 с. — (Theory and Applications of Natural Language Processing). — ISBN 978-3-642-35084-9 .
- Li S., Graça JV, Taskar B. Wiki-ly supervised part-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. — Jeju Island, Korea: Association for Computational Linguistics, 2012. — С. 1389—1398 . Архивировано 22 мая 2013 года.
- Lin F., Krizhanovsky A. Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // Proc. of the 13th Russian Conference on Digital Libraries RCDL'2011. October 19-22, Voronezh, Russia. — 2011. — С. 19—26.
- McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA - Short Papers. — The Association for Computer Linguistics, 2011. — С. 363—367. — ISBN 978-1-932432-88-6 .
- Medero J. and Ostendorf M. Analysis of vocabulary difficulty using wiktionary // Proc. SLaTE Workshop. — 2009.
- Meyer CM and Gurevych I. Worth its Weight in Gold or Yet Another Resource - A Comparative Study of Wiktionary, OpenThesaurus and GermaNet : Proc. 11th International Conference on Intelligent Text Processing and Computational Linguistics,. — Iasi, Romania, 2010. — С. 38—49 . Архивировано 1 декабря 2017 года.
- Meyer CM and Gurevych I. OntoWiktionary – Constructing an Ontology from the Collaborative Online Dictionary Wiktionary // Semi-Automatic Ontology Development: Processes and Resources / MT Pazienza and A. Stellato. — IGI Global, 2012. — С. 131—161. — ISBN 978-1-4666-0188-8 .
- Otte P., Tyers FM Rapid rule-based machine translation between Dutch and Afrikaans // EAMT 2011: proc. of the 15th conference of the European Association for Machine Translation / Mikel L. Forcada, Heidi Depraetere, Vincent Vandeghinste. — Leuven, Belgium, 2011. — С. 153—160.
- Schlippe T., Ochs S., Schultz T. Grapheme-to-phoneme model generation for Indo-European languages // In Proceedings of The 37th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2012), Kyoto, Japan, 25-30 March. — 2012. — С. 4801—4804.
- Zesch T., Müller C., Gurevych I. Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary. : Proc. of the 6th International Conference on Language Resources and Evaluation. — Marrakech, Morocco, 2008.
Ссылки
В данной статье имеется список источников или внешних ссылок , но источники отдельных утверждений остаются неясными из-за отсутствия сносок . |
Проверить на соответствие критериям взвешенности изложения . |