Wiktionary

Iz Wikipedije, slobodne enciklopedije
Idi na navigaciju Idi na pretragu
Wikirečnik
engleski Wikirečnik
Logo slika
English Wiktionary Main Page.png
Url wiktionary.org
Komercijalno br
Vrsta lokacije Mrežni rječnik
registracija Opciono
jezici) 170
Lokacija servera Majami
Vlasnik Wikimedia fondacija
autor Jimmy Wales
Početak rada 12. decembra 2002
Alexa rangiranje
549 (9. septembar 2017.) [1]
Wikimedia Commons logo Medijski fajlovi na Wikimedia Commons

Wiktionary ( eng. Wiktionary) - besplatno dopunjeni višenamjenski višejezični rječnik i tezaurus zasnovan na wiki engine-u . Jedan od projekata Fondacije Wikimedia . Prvobitno objavljeno na engleskom 12. decembra 2002. godine .

Rječnik sadrži gramatičke opise, tumačenja i prijevode riječi. Osim toga, članci mogu odražavati informacije o etimologiji , fonetskim svojstvima i semantičkim vezama riječi. Dakle, Vikirječnik je pokušaj da se u jednom proizvodu objedine gramatički , eksplanatorni , etimološki i višejezični rječnici, kao i tezaurus .

Podaci iz Vikirječnika se aktivno koriste u rješavanju različitih problema vezanih za mašinsku obradu teksta i govora. [⇨] .

Leksikografski koncept

Kroz međusobnu povezanost između različitih jezičkih sekcija Vikirječnika, kao i između članova rječnika i drugih projekata Vikimedijine fondacije , članovi svakog od njih mogu koristiti koncepte, alate i leksikografski materijal kreiran od strane njihovih kolega izvornih govornika. U toku rada na različitim jezičkim dijelovima rječnika formiran je složen koncept univerzalnog leksikografskog izvora, koji je po prvi put postao moguć zahvaljujući elektronskim tehnologijama. Koncept u konačnici pretpostavlja potpun, sveobuhvatan opis svih leksičkih jedinica svih prirodnih (i osnovnih umjetnih) jezika koji imaju pisani jezik. Potpunost opisa znači prisutnost informacija o fonetici, morfologiji, sintaksičkim i semantičkim svojstvima leksičke jedinice, njenoj etimologiji, kompatibilnosti i frazeologiji. Potpunost i stepen konzistentnosti u implementaciji ovog koncepta mogu varirati u različitim jezičkim dijelovima projekta. [ izvor nije naveden 188 dana ]

U svakoj jezičnoj sekciji centralni je jezik "naslova" - svi članci su pisani isključivo na njemu, osim toga, cilj je obezbijediti prijevode riječi i drugih jedinica ovog jezika na najveći mogući broj drugih jezika. U pravilu se riječi iz drugih jezika prevode samo na ovaj „naslovni“ jezik. Dakle, u Ruskom Vikirječniku za ruske riječi daju se tumačenja i prijevodi na strane jezike, za strane riječi, umjesto tumačenja, daju se prijevodi na ruski.

Kada se opisuje morfologija, pokušava se dati najpotpunija slika fleksije, uključujući naznaku klase fleksije. Konkretno, morfološke informacije o ruskim leksemama date su u skladu s klasifikacijom koju je predložio A. A. Zaliznyak . [ izvor nije naveden 188 dana ]

Da bi se dopunio Vikirečnik, napravljena je opsežna lista referenci ; engleski Vikirečnik je razvio pravila za uključivanje termina u rečnik (pogledajte Kriterijumi za uključivanje ). Za razliku od ruske Wikipedije , gdje se prioritet u odabiru materijala daje autoritativnim izvorima [Napomena 1] , u ruskom Vikirečniku prevladava analiza upotrebe riječi koju je izvršio urednik članka [Napomena 2] .

Tezaurus

Vikirječnik sadrži sljedeće semantičke odnose: sinonimi , antonimi , hiperonimi , hiponimi , kohiponimi , holonimi , meronimi , paronimi . [ izvor nije naveden 188 dana ]

Wikipedia i Vikirečnik

Vikirječnik ne uključuje detaljne opise činjenica i enciklopedijskih informacija. Ipak, Vikirječnik pruža jedinstvene informacije koje nisu dostupne na Wikipediji: fraze, izreke, kratice, akronimi, opisi pravopisnih grešaka, pojednostavljeni / iskrivljeni pravopisi / izgovor riječi, kontroverzni slučajevi upotrebe, protologizmi , onomatopeja , različiti stilovi (npr. ) i predmetne oblasti[2] . Tako se Wikipedija i Vikirečnik međusobno nadopunjuju.

Vikirečnik je sličan Wikipediji po tome što (1) postoje interne veze ka člancima o rečima unutar Vikirečnika, (2) postoje kategorije, (3) postoje interwiki veze do članaka o istoj reči u rečniku stranog jezika[ 2] .

Odeljak na ruskom jeziku

Eksterni video fajlovi
Silonov A. F. "Vikirječnik: ciljevi, metode formiranja i struktura" // Seminar "Računarska lingvistika", 2015.

Dinamika razvoja ruskog Vikirječnika

Ruska sekcija Vikirečnika nastala je u proljeće 2004. godine . Godinu i pol dana praktički se nije razvijao, nasumično se dopunjavao, uglavnom nekvalitetnim materijalom. Situacija se počela mijenjati krajem 2005. - početkom 2006. godine . [ izvor nije naveden 188 dana ]

Godine 2006. imenovan je prvi Schwallex administrator, obim članaka je skoro učetvorostručen u odnosu na prethodnu godinu, stvoren je moćan alat za opisivanje morfologije i počeo se formirati razvijen sistem semantičkih kategorija.

Do jeseni 2006. broj članaka u Ruskom Vikirečniku dostigao je 10.000; zatim, zahvaljujući kreiranju bota koji koristi vokabulare drugih sekcija Vikirečnika za generisanje praznih članaka u ruskoj sekciji, dodato je još oko 70.000 članaka za mesec i po dana. Vikirječnik je 7. novembra 2006. prešao granicu od 80.000, a 10. decembra 2006. godine dosegnut je broj od 100.000 unosa. Na dan 17. decembra 2018. broj članaka je premašio 1.000.000, a broj aktivnih učesnika bio je oko 230.

Za razliku od situacije sa tradicionalnim rječnicima, kompletnost Vikirječnika ne može se adekvatno ocijeniti formalnim pokazateljem broja natuknica. Automatski brojač ne pravi razliku između polupraznih praznina i istinski informativnih članaka, štoviše, ne uzima u obzir unutarjezičnu i međujezičnu homonimiju. Na primjer, unos vokabulara bor je naveden kao jedan članak, dok ovaj članak opisuje nekoliko homonimnih leksema ruskog jezika, kao i leksema istog imena na drugim jezicima (bugarski, tatarski) - u tradicionalnim rječnicima ovaj materijal bi se sastavili i uzeli u obzir u obliku nekoliko članaka... [ izvor nije naveden 188 dana ]

Poređenje sa drugim Vikirečnikima

Broj ruskih riječi u ruskom Vikirječniku (lijevo) i u engleskom Vikirječniku (desno)[3] , podaci za 2011.

Od avgusta 2008. godine, ruski Vikirečnik je došao na prvo mesto u pogledu veličine baze podataka među svim Vikirečnikima [4] . U isto vrijeme, broj članaka u Ruskom Vikirječniku nije najveći [5] . To je dijelom zbog činjenice da za projekte u kojima ima više članaka nego u ruskom Vikirječniku, članci mogu biti u prosjeku manji, kao što se može vidjeti na web stranici statistike [6] .

Osim toga, ruski Vikirječnik, u poređenju s drugim dijelovima Vikirečnika, sadrži veću količinu pomoćnih informacija, uključujući tabele za pretraživanje, liste učestalih riječi, itd. "," Indekse ", itd.). Značajan broj članaka u Ruskom Vikirječniku su još uvijek praznine koje generiraju botovi. Iako ponekad možete naići na kritiku velikog broja lažnih članaka, ovaj predizgled ima mnoge prednosti. Prvo, pomaže u bržem stvaranju članaka tako što unaprijed uključuje neke informacije, kao što je dio govora riječi koja se opisuje. Drugo, struktura članaka se standardizuje. Zbog raširene upotrebe šablona (koje obično odmah postavljaju botovi prilikom automatskog kreiranja članaka), postaje moguće centralno mijenjati izgled više članaka odjednom. Prisutnost velikog broja predložaka također pomaže u daljnjem automatiziranom uređivanju već kreiranih članaka - na primjer, za automatsko dodavanje prijevoda prema prethodno pripremljenim rječnicima (pošto je botovima lakše navigirati strukturom članka koji je već označen uz specijalizovane konstrukcije, a ne na ljudskom jeziku). Posebnost ruskog Vikirječnika je dobro razvijen koncept razvoja (koji se može naći na glavnoj stranici). Zbog dobro razvijenog koncepta i široke upotrebe šablona, ​​članci u ruskom Vikirječniku izgledaju više istog tipa nego u mnogim drugim projektima (u osnovi isti broj odjeljaka, njihov redoslijed, dizajn svakog odjeljka). [ izvor nije naveden 188 dana ]

Autori su izračunali broj rječničkih natuknica o ruskim riječima, broj članaka sa i bez tumačenja u dva Vikirječnika (na slici). Potvrđena je politika urednika engleskog Vikirečnika (da se ne stvaraju prazni članci): samo 5,57% rječnika o ruskim riječima je bez tumačenja. U Ruskom Vikirječniku ima 60,39% takvih članaka. Međutim, ruski Vikirečnik (od 2011.) sadrži skoro 3,4 puta više unosa sa tumačenjima ruskih reči od engleskog Vikirečnika: 53,6 hiljada naspram 15,7 hiljada[3] .

Primjena u NLP zadacima

Za korištenje leksikografskih podataka vikrijera u rješavanju problema automatske obrade teksta i govora , potrebno je tekstove rječničkih natuknica ( polustrukturirani podaci[7] ) pretvoriti u strojno čitljiv format [8] [9] [ 10] .

Izdvajanje podataka iz wikirečnika nije lak zadatak. Mogu se razlikovati sljedeće poteškoće[11] : (1) redovne i česte promjene kako podataka tako i strukture članaka, (2) različiti vikriječnici imaju različitu strukturu i format članaka [Napomena 3] , (3) wiki tehnologija je u početku fokusiran na upotrebljivost ljudsku, a ne mašinsku obradu.

Postoji nekoliko parsera za različite wikirečnike [12] :

  • DBpedia Wiktionary je jedno od proširenja projekta DBpedia , podaci su izvučeni iz engleskog, francuskog, njemačkog i ruskog Vikirječnika. Izvučeno: jezik, dio govora, interpretacija, semantičke relacije, prijevodi. Za dohvaćanje podataka koriste se: deklarativni opis strukture rječničkog unosa [13] , regularni izrazi [14] i FST- tip konačnog automata [15] .
  • JWKTL (Java Wiktionary Library) - API za podatke engleskog i njemačkog Vikirječnika [16] . Izvučeno: jezik, dio govora, tumačenje, citati, semantičke relacije, etimologija i prijevodi. Program je dostupan za nekomercijalnu upotrebu.
  • wikokit je parser za engleski i ruski Vikirječnik [17] . Izvučeni su: jezik, dio govora, tumačenje, citati [18] (samo za ruski Vikirječnik), semantičke relacije [19] i prijevodi. Izvorni kod programa dostupan je pod uslovima otvorene više licence .

Uz pomoć wikirječničkih rječnika rješavaju se različiti zadaci vezani za obradu teksta i govora [20] :

  • mašinsko prevođenje zasnovano na pravilima između holandskog i afrikaansa ; podaci engleskog i holandskog Vikirečnika i dvije Wikipedije koriste se u okviru sistema Apertium [21] ;
  • kreiranje mašinski čitljivog rečnika pomoću NULEX parsera, koji integriše otvorene jezičke resurse: engleski Vikirečnik , WordNet i VerbNet [22] . Za imenicu iz engleskog Vikirječnika izdvojeni su dio govora i oblik množine, za glagole - vrijeme. Tehnika skrapinga ekrana korištena je za izdvajanje podataka iz Vikirječnika;
  • prepoznavanje i sinteza govora , gdje Vikirečnik djeluje kao izvor podataka za automatsku konstrukciju rječnika izgovora [23] . Parovi izgovora riječi (transkripcija u IPA sistemu) su izvučeni iz češkog, engleskog, francuskog, njemačkog, poljskog i španjolskog Vikirječnika [Napomena 4] . Kada je označeno, najveći broj grešaka je pronađen u transkripcijama izvučenim iz engleskog Vikirječnika [24] ;
  • konstrukcija ontologija [25] i baza znanja [26] ;
  • prikaz ontologija [27] ;
  • pojednostavljenje teksta . U [28] , složenost riječi je procijenjena na osnovu podataka Vikirječnika. Za riječ iz engleskog Vikirječnika izdvajaju se: veličina rječničke stavke, broj dijelova govora, broj značenja i broj prijevoda. Autori [28] sugeriraju da će jednostavnije, bazičnije, korištene riječi imati više značenja (odnosno, veličina članka će biti veća), više dijelova govora i više prijevoda. Nadalje, “složene” riječi koje se nalaze u tekstu moraju se preformulisati, pronaći više “jednostavnih” ekvivalenata, što će dovesti do pojednostavljenja (adaptacije) teksta;
  • označavanje dijela govora . U (Lee et al., 2012) [29], na osnovu podataka iz engleskog Vikirječnika, konstruirani su POS-tageri za osam jezika sa “lošim jezičkim resursima” koristeći skrivene Markovljeve modele . [Napomena 5]
  • analiza sentimenta teksta [30] .

vidi takođe

Bilješke (uredi)

Komentari (1)
  1. Wikipedia: Autoritativni izvori

    Wikipedijini članci bi trebali biti zasnovani na objavljenim autoritativnim izvorima .

  2. Wikirečnik: Leksikografski koncept

    Ako postoji neslaganje oko bilo kojeg opisanog svojstva bilo koje jezičke jedinice, prioritet (sa stanovišta dokaza) se daje korpusnim izvorima.

  3. Uporedite, na primjer, strukturu i pravila za formatiranje članaka u engleskom Vikirječniku i ruskom Vikirječniku .
  4. Ako u rječničkom unosu postoji nekoliko transkripcija, uzima se prva.
  5. Izvorni kod programa i rezultati označavanja dijela govora dostupni su na internetu: https://code.google.com/p/wikily-supervised-pos-tagger
Izvori od

Književnost

Ссылки