Am lansat definițiile structurate

La dexonline am sărbătorit Ziua Muncii prin muncă (știm, suntem niște dubioși). Astfel că, în weekendul trecut, am lansat o funcție pe care o pregătim de mai bine de un an: definițiile structurate. Vedeți, de exemplu, abate sau talpă, unde am evidențiat separat sensurile, subsensurile, expresiile, exemplele, sinonimele, etimologia etc. Comparați aceasta cu formatul din dicționar (de exemplu pentru talpă), unde aceste informații sunt listate de-a valma.

Structurarea definițiilor are trei componente, din care primele două sunt aproape încheiate:

  1. Programarea sistemului pentru a afișa definițiile în acest format, precum și găsirea unei reprezentări coerente și complete în baza de date a acestor informații.
  2. Redactarea unui Ghid pentru structurare, care tratează diversele categorii de probleme apărute la structurare, astfel încât persoanele implicate în acest efort să poată structura definițiile într-o manieră consecventă.
  3. Parcurgerea efectivă a celor peste 200.000 de intrări din dexonline și structurarea lor.
Până acum am structurat aproape 3.000 de intrări (cam 1,5%), deci nu sunt șanse foarte mari să dați peste ele folosind site-ul în mod uzual. Desigur, în timp acest număr va crește!
Colegul nostru Matei, expertul de facto în domeniu, ocupându-se aproape exclusiv de structurare în ultimul an, a ajuns la un ritm mediu de circa 10 minute pentru structurarea unei intrări. Așadar, estimăm că structurarea tuturor intrărilor va dura peste 33.000 de ore, adică peste 17 ani-om (cu normă întreagă). Și asta presupunând că lexicografii se vor opri din produs dicționare și ediții noi în acest timp. 🙂
Bineînțeles, sperăm să atragem și alți colaboratori interesați de proiect. Rămâne problema costului, care nu este neglijabil. Alegeți-vă un tarif rezonabil pe oră, înmulțiți-l cu 33.000 și veți afla costul structurării tuturor definițiilor. 🙂 Dacă doriți, puteți dona ca să contribuiți la acest efort și la alte proiecte ale dexonline.

Zăresc pretutindeni felonii

Anul trecut am observat că lumea a căutat frenetic pe dexonline răspunsuri la o întrebare din examenul de simulare pentru examenele naționale de la clasa a 8-a. În mod curios, căutările au venit… în timpul examenului, iar câteva chiar înainte de începerea lui!

Lăsăm la o parte stupizenia unor oameni de a trișa la un examen de antrenament. Anul trecut am observat tardiv autofurarea căciulii, dar anul acesta am apucat să ne organizăm nițel. 🙂

Pe durata simulărilor de astăzi, am înlocuit definițiile pentru cuvintele date la subiecte, astfel:

  • pretutindenea, pretutindeni → pururi;
  • a zări, zărit →a zori, zorit;
  • felonie → făloșenie (mai mult despre asta la final).
Deci definițiile prezentate arătau cam așa:

Am dedus aceste cuvinte înainte să apucăm să vedem subiectele, urmărind pur și simplu lista cu cele mai căutate cuvinte, în care acestea se detașau clar. Iar statisticile confirmă că nu ne-am pregătit degeaba! Pentru pretutindeni / pretutindenea și a zări / zărit, căutările au fost distribuite astfel:

  • de la 08:00 la 08:59 au fost 9 căutări;
  • de la 09:00 la 09:59 au fost 143 de căutări;
  • de la 10:00 la 10:59 au fost 171 căutări;
  • de la 11:00 la 11:59 au fost 989 căutări.

Acum așteptăm cu interes rezultatele examenelor. >:-)

În încheiere, două vorbe despre felonie. Tot înainte de 09:00 dimineața, am observat o creștere a interesului pentru acest cuvânt, care a avut 35 de căutări înainte de 09:00. Am presupus că este și el parte din subiecte, așa că i-am „deturnat” și lui definițiile. Între 09:00 și 12:00, cuvântul a mai adunat 335 de căutări. Totuși, nu l-am regăsit nicăieri în enunțul subiectelor!

După amiază, am lămurit și misterul: domnul Andrei Pleșu publicase pe blogul său, chiar azi-dimineață, un articol în care folosea acest cuvânt. Nefericită coincidență!

Îi mulțumim lui David pentru ajutorul dat la implementare. Vă reamintim pe această cale că dexonline este software liber și oricine dorește poate programa pentru noi. Oferim la schimb recunoștință și momente hilare ca acesta. Și, ocazional, tricouri.

Ne revedem la examenele reale!

Definiții structurate – un exemplu

Structurarea definițiilor ne duce de la

la

Mai avem mult de lucru până să fie gata. Nu în ultimul rând, mai avem de lucru la prezentarea vizuală a diferitelor componente, la adăugarea de exemple și la reconcilierea diferendelor între dicționare asupra anumitor sensuri. Dar, dacă avem ceva, de 15 ani încoace, este muuuultă răbdare. 🙂

Structurarea definițiilor

În prezent, definițiile din dexonline sunt stocate ca simple bucăți de text, cu marcaje pentru text aldin, italic sau alte formatări. De exemplu, definiția pentru föhn:

FÖHN, (2) föhnuri, s. n. 1. Vânt cald, uscat și puternic, care bate primăvara dinspre crestele alpine ale munților din Elveția și Austria spre văi, grăbind topirea zăpezilor. 2. Uscător electric pentru păr. [Pr.: fön] – Din fr. foehn, germ. Föhn.

este reprezentată, în baza noastră de date, ca:

@FÖHN,@ (@2@) $föhnuri,$ #s. n.# @1.@ Vânt cald, uscat și puternic, care bate primăvara dinspre crestele alpine ale munților din Elveția și Austria spre văi, grăbind topirea zăpezilor. @2.@ Uscător electric pentru păr. [#Pr.#: $fön$] – Din #fr.# @foehn,@ #germ.# @Föhn.@

Structurarea implică și ierarhizarea sensurilor

Acest format este simplu de folosit, dar are un dezavantaj. Componentele definiției sunt toate de-a valma: sensurile, subsensurile, pronunția, silabisirea, morfologia (conjugările de verbe și declinările de substantive), etimologia (originea cuvântului) etc. Lipsa structurării limitează utilitatea bazei noastre de date, căci unele analize sunt greu sau imposibil de făcut. De exemplu, nu este ușor să găsim toate cuvintele care se pronunță altfel decât se scriu, sau toate cuvintele care provin din limba germană.

De aceea, am demarat (de ceva vreme) un efort de structurare a definițiilor, adică de separare și clasificare a tuturor proprietăților sus-menționate. Nu știm sigur cât va dura acest efort; probabil câțiva ani. Nouă ni se pare un proiect foarte interesant. Poate și vouă? În orice caz, vă vom ține la curent ocazional cu evoluția procesului de structurare.

Pentru astăzi, etichetele pe cuvinte. Unele informații sunt relativ ușor de extras automat. Majoritatea verbelor din dexonline sunt acum etichetate cu informații despre grupă și conjugare:

  • a onora este verb de grupa I, conjugarea a II-a;
  • a părea este verb de grupa a II-a, conjugarea a VIII-a.
Am procedat similar și pentru alte părți de vorbire (cu oarece erori):
  • muncitor este adjectiv sau substantiv masculin și feminin;
  • aferim este interjecție.
În timp, vom adăuga și alte etichete de interes pe cuvinte, în special cele din registrul stilistic (familiar, popular, ironic ș.a.m.d.). De exemplu, zbenghi este un substantiv familiar și popular.

O mie de poze fac cât un milion de cuvinte

Astăzi se împlinesc 1.000 de zile de când colaborăm cu Carmen Nistor pentru imaginea zilei care însoțește cuvântul zilei. Vă vine să credeți? Au fost 1.000 de poze, câte una pe zi, nu doar în zilele lucrătoare, ci și duminicile, de Crăciun, de Paște, din concediu, fără excepție.

Cheia succesului oricărui proiect este răbdarea. Îți mulțumim, Carmen, pentru răbdare și pentru statornicie. Ne dorim să fii alături de noi încă multe, multe mii de zile!

Te-am păcălit / Cu nasul prăjit

Azi ne-am distrat și noi un pic de 1 aprilie:

Am injectat erori în toate definițiile, precum și pe pagina principală. (Nu vă speriați, definițiile originale au rămas nemodificate; diferențele apar doar superficial și doar azi, 1 aprilie).

Știm că unii din dumneavoastră n-au gustat gluma. Asta este, la anul sperăm să fim pe aceeași lungime de undă!

Ne-a surprins plăcut numărul mare de oameni care au observat greșelile și s-au obosit să ne scrie. Este un compliment pentru dumneavoastră că o astfel de exprimare agramată vă zgârie ochii. Dacă se va întâmpla să observați erori și în zilele obișnuite, vă rugăm să continuați să ne scrieți. Dexonline depinde de vigilența oamenilor cu simț civic pentru corectarea erorilor.

Pentru noi a fost o zi distractivă. Sperăm că și pentru voi!

Votați Iohannis pe 16 noiembrie 2014!

Nouă ne plac zilele normale, în care ne putem vedea de treabă. Dar s-ar putea să nu mai existe zile normale în România. Acesta este motivul pentru care ieșim din sfera noastră de confort și încercăm să atragem atenția la ce s-ar putea întâmpla în țară în următorii ani de zile.


Mai întâi, permiteți-ne să spunem câteva cuvinte despre noi. Sperăm că Dexonline este un site util. Dacă nu pentru toți dintre dumneavoastră direct, atunci pentru cele 2,5 milioane de oameni care-l vizitează lunar. Ne face mare plăcere să muncim la el. Lucrăm în mare parte voluntar. Suntem independenți și fiecare din noi s-a alăturat proiectului pentru că simte că lasă în urmă un instrument devenit necesar supraviețuirii limbii, în circumstanțele sociale și tehnice ale lumii de azi. Ne place și lucrul bine făcut și avem și o mândrie, putem să-i spunem, că limba noastră maternă e româna. Da, aici sunt ambele sloganuri ale campaniei electorale, pe care credem că am reușit să le punem în fapte.


Cum am mai zis-o, Dexonline este un demers civic. Ne-am propus să facem ceva pentru limba română, pentru cei care vor să folosească cuvintele limbii române ca să-și transmită gândurile. Tot dintr-o pornire civică spunem acum următoarele.


Credem că trăim un moment important, iar consecințele alegerilor din 16 noiembrie vor fi enorme. Considerăm că Victor Ponta este un real pericol pentru România, un om cum nu se poate mai departe de valorile noastre: onestitate, muncă, responsabilitate, spirit civic. Credem că ar fi catastrofal dacă Victor Ponta ar ajunge președintele României, iar prima afectată ar fi justiția. S-ar nărui astfel statul de drept, singurul sistem în care inițiativa privată se poate dezvolta pe termen lung, fără teama perpetuă a unor abuzuri care pot lovi pe oricine, oricând.


Statul de drept necesită, prin definiție, separarea puterilor, care se țin sub control una pe cealaltă. Concentrarea parlamentului, a guvernului și a puterii locale în mâinile PSD este deja alarmantă, iar atacurile la justiție din ultimii ani arată intențiile acestui partid și ale liderilor săi. Adăugarea președinției la această horă a corupției ar fi devastatoare. Dacă PSD câștigă și alegerile prezidențiale, România va redeveni un sistem monopartid. Faptul că 40% dintre români nu văd o problemă în asta demonstrează starea de manipulare a unei nații care arăta, în 1989, că urăște cu toată ființa ei totalitarismul.


De aceea, o spunem răspicat: pe 16 noiembrie trebuie votat Klaus Iohannis.


Știm că acest îndemn poate fi contestat. Unii nu îl simpatizează nici pe Iohannis. Alții consideră că „toți sunt aceeași mizerie”. Alții ar vota doar cu Făt-Frumos sau cu Superman și nu se „mânjesc” alegând pe altcineva. Dar aici este viața reală, de care nu putem fugi. Fie Ponta, fie Iohannis ne va fi președinte cel puțin până în 2019, cu toate implicațiile care decurg piramidal de acolo, de la Cotroceni.


Pentru cei care au votat cu altcineva în primul tur (e și cazul nostru), Iohannis este o soluție infinit mai bună decât Ponta. N-a arătat nici pornirile de satrap ale acestuia, nici n-a luat apărarea celor ajunși în pușcării, nici nu spune una dimineața și alta seara, nici nu s-a arătat mai apropiat de regimurile cu trăsături despotice de la Est decât de valorile civilizației occidentale și nici nu i se poate pune în cârcă vreun plagiat (furt, chiar dacă de text). Klaus Iohannis este primar al Sibiului de atâția ani, reales cu mari majorități; n-are nici renume de baron local, care taie și spânzură pe moșia sa, și nici nu dă de bogdaproste la armate de oameni, pentru a le obține votul.


Un citat care a tot circulat spune că pentru ca răul să se întâmple e suficient ca oamenii buni să nu facă nimic. Experiența de viață a fiecăruia dintre noi ne poate confirma acest lucru. Ca răul să se întâmple nu trebuie să facem rău. E suficient să ne ținem deoparte, să rămânem pasivi, să persiflăm implicarea sau să ne găsim scuze pentru absență.


Îi înțelegem pe cei care uneori chiar nu găsesc pe cine să aleagă și-și spun că nu merită să piardă timpul cu votul. Acum nu este o astfel de situație. Cu Victor Ponta președinte, România s-ar duce de râpă și, pe termen scurt sau mediu, fiecare dintre noi ar resimți în plan personal dezastrul.


Vă rugăm să mergeți la vot pe 16 noiembrie și să-l votați pe Klaus Iohannis.


Echipa Dexonline

Notă: Publicarea acestui mesaj s-a făcut cu asentimentul marii majorități a echipei (nu cu unanimitate).

Actualizare: Încetați să mai susțineți că interesul pentru treburile cetății este un lucru rău. Interesul pentru lumea în care trăim este un lucru nu doar bun, ci chiar vital. Este absolut normal să ne interesăm cum ne administrează țara cei cărora noi le-am îngăduit să ne-o administreze, prin votul nostru. Puteți citi detalii despre viziunea noastră asupra civismului. Comentariile care ne acuză că „facem politică”, presupunând a priori că asta ne face vinovați de ceva, vor fi șterse. Nu poți să combați un punct de vedere cât timp nu îl înțelegi.

Despre civism și politică

Întrucât ocazional lumea ne acuză că facem politică, am scris un material în această privință. În el explicăm de ce interesul pentru treburile cetății nu este numai natural, ci chiar o condiție esențială pentru democrație. Iată-l:

Civism și politică

Dar din dar se face rai

Când povestim că lucrăm la DEX online, oamenii ne întreabă adesea „păi ce mai lucrați, nu aveți deja toate definițiile?”. Atunci le povestim cu entuziasm despre toate ideile pe care le avem și cum fiecare nouă funcție pe care o implementăm ne deschide orizonturi pentru alte funcții și mai ambițioase. Frontiera lucrurilor de făcut se extinde continuu, dar timpul nostru este tot de 24 de ore pe zi.

Mai trist este că DEX online rămâne, chiar și după 11 ani, un proiect făcut în timpul liber. Când apar alte priorități în viață, el trece pe planul doi. Am vrea să nu fie așa. Unul dintre noi (Radu) vorbește mereu despre ziua când va putea lucra la DEX online cu normă întreagă și sperăm ca acea zi să vină înainte de pensie. Ne dorim și să angajăm un al treilea om (fie el programator sau lingvist). Am ajuns departe cu pasiune și cu sprijinul vostru, al comunității de voluntari și simpatizanți, dar ne-am dori un ritm mai susținut, pentru că avem mult de muncă.

Cu ajutorul vostru, putem face această trecere. Am creat o pagină de donații în care enumerăm proiecte concrete pe care le-am putea face cu banii strânși. Vă invităm să o vizitați:

http://dexonline.ro/doneaza

Nu putem răsplăti îndeajuns bunăvoința voastră, dar putem încerca astfel:

  • 20 de lei – medalii (virtuale) pentru donatori
  • 50 de lei – în plus, pagini fără reclame timp de un an
  • 100 de lei – în plus, trei autocolante cu DEX online
  • 200 de lei – în plus, un tricou cu DEX online

Anunț important

DEX online anunță cu mândrie că, începând cu 15 aprilie, vom pune la dispoziția publicului larg binecunoscutul DISOO (Dicționar Ilustrat de Sexualitate Orientală Orientată). Autorii acestuia, Vysapha Kootopa Kaleala și Sanookredetz Chespoon au fost de acord să ne pună la dispoziție acest dicționar, inclusiv imaginile. Suntem în special mulțumiți de traducerea acestuia în limba română, la care am muncit asiduu în ultimele șase luni, fiind nevoie inclusiv de cursuri de specializare.

Având în vedere că cei mai mulți utilizatori sunt obișnuiți cu formatul fără poze, acesta va rămâne formatul implicit. Dacă doriți să activați pozele, vă rugăm setați acest lucru de la Preferințele contului.