Ali Ttaik-al-Rep:

Gyökölök

Elöljáróban...

Szeretném elkerülni a legalapvetőbb félreértésből eredő konfliktust: az írásban szereplő könyvet nem kívánom egészében minősíteni, az esetleges mögöttes ideológiák érdektelenek ("jobb nem belekeveredni" típusúak) számomra. Aki a finnugor vs sumér vitába akar belerángatni, azt leverem, de csak mert ilyen szelíd vagyok...

A nyelv szerkezete viszont érdekel.

Olvasom...

A könyv eredetileg azért érdekelt, mert költséghatékony módon kívántam a Czuczor-Fogarasi (CzFo) szótár lényegi részéhez hozzájutni, s azt a neten (enyhe csodálkozásomra) nem leltem fel. Próbálkoztam az MBE-nél is, de nem sikerült szót értenem velük, maradt Varga Csaba "A kőkor élő nyelve" c. könyve, amely az engem érdeklő részt utánközölte. A CzFo-val kapcsolatos munkaigény (informatikai megközelítésű szételemzés és apróra statisztikázás) végül is nagyobbnak bizonyult az elemzés során, mint amibe egyedül szívesen belevágnék (lottóötös esetén persze miért ne?), de ha már itt a könyv, olvasgattam. Aktívan. Azaz nem állom meg, hogy szó nélkül hagyjam. Parttalanság elkerülése végett most csak egy részletéről írok, ez épp olyasmi, ami az "ezt nem így kellett volna" kategóriába esik -- rossz tulajdonságom, hogy sok mindent sorolok ide, akit ez zavar, ne olvassa tovább. Nem piszkálnám, ha nem érdekelne...

Számoljunk!

Varga Csaba a könyv 265. oldalától kezdve egy számítássorozatot végez, amelyben a véletlen szóegyezések valószínűségét kísérli meg meghatározni.

Sajnos ez már az elején elcsúszik, mert három betűs "szavakat" (gyököket?) vesz alapul, de az általa is ismertetett alapszabályt figyelmen kívül hagyja: ebben a formában mássalhangzó mássalhangzót nem követhet, magánhangzó pedig egy és csakis egy lehet az egységben. Mondhatjuk persze, sőt tételezzük fel, hogy az egyszerűség kedvéért számolt nagyvonalúan, de az ilyen nagyvonalúság már a mondandó rovására megy. Szerintem. Szóval az nem 30 a köbön...

A magyar ábécé szóba jövő mássalhangzói a következők:
b,c,cs,d,dz,dzs,f,g,gy,h,j,k,l,ly,m,n,ny,p,r,s,sz,t,ty,v,z,zs.

Ez 26 mássalhangzó, a csak idegen (illetve régies helyesírású) szavakban előforduló "q","w","x" és "y" kimarad. Véleményes lehet még a "dz" és a "dzs", valamint az "j" és "ly" páros második tagja, a számítások ezek nélkül újra elvégezhetők. Be kell toldani viszont egy "látszólagos" néma mássalhangzót technikai okokból, hogy a magánhangzóval kezdődő, vagy azzal végződő "csonka" gyökök is szerepelhessenek (beleértve mindkét oldalról csonka egyhangú gyököket is). A gyök formája tehát mássalhangzó-magánhangzó-mássalhangzó, a 27. "néma" felhasználásával.

A magánhangzókkal megint van egy kis gond, mert a mai készletről tudnivaló, hogy hiányos, a "zárt e" még itt kísért, de a CzFo szerint mindösszesen 28 magánhangzó szerepelt a magyar nyelvben, némelyik nyomát már csak a hangillesztkedést megtörő ragozásban lehetne tetten érni. Miután azonban a ma még meglevő 14 magánhangzóval is jól elboldogulunk, számoljunk csak ezekkel!

Három betűre tehát 27*14*27=10206 variáció jön ki, itt nyugodtan lekerekíthetünk tízezerre, még annyi gyök sem lesz...

Van viszont egyéb gond, mivel a magyar nyelvben szerepelnek kettős mássalhangzóval is szavak. Ezeket a fenti hárombetűs szerkezetbe elvben nem tudjuk elhelyezni. Varga Csaba ugyan jelzi a problémát, de a megoldása nekem nem tetszik. Khm.

Finn barátaink szintén tudják kettőzni a mássalhangzóikat, miként a hosszú és rövid magánhangzókat is megkülönböztetik, de ezt a két dolgot (ami bizonyos szempontból ugyanaz) ugyanúgy jelölik: a magánhangzókat is kettőzik. Ettől az még nem lesz két magánhangzó, ez csak jelölési konvenció. (Pl. Lauttasaari.) Mi is jelölhetnénk az összes kettős mássalhangzónkat egy mássalhangzóval, amire vesszőt rakunk: az elmúlt pár évtizedben ez az írógépeknél okozott volna gondot, de elvben lehetséges.

A magyar nyelv kettős mássalhangzóval nem kezd szót, de szótag (gyök) végződhet így (pl. az "ott" az "otthon" szavunkban), így a harmadik helyen 27 helyett 53 lehetőséggel kell számolni. (Azért nem 54, mert a technikailag betoldott néma "mássalhangzónk" nem duplázódhat.) Az új érték három betűs egységre: 27*14*53=20034. Ez megint felső korlát, ennél csak kevesebb létezhet. Sokkal.

Komolyabb probléma, hogy vannak olyan rövid, egyszótagú szavaink, amelyek sehogyansem képzettek, mégsem elég három betű számukra, vagy ha igen, másképp sértik a fenti kiindulási formát. Ilyen az "ing" szó. Persze lehet mondani, hogy itt a "néma" mássalhangzó betölti szókezdő szerepét, az "ng" kapcsolat pedig egy meglevő, de egyedileg nem jelölt hangunk, be kell számolni 54.-nek (szókezdő helyzetben nem fordul elő és kettőzni sem kettőzzük), de a CzFo-ban felbukkannak más rendhagyó kapcsolatok is, magyarázat nélkül (pl. "-gr-" kapcsolat, ami, bár a magyar sem szereti a mássalhangzótorlódást, könnyen ejthető).

Közbevetőleg, a "gyök" ebben a szövegkörnyezetben egy példán keresztül talán egyszerűen megérthető: legyen mondjuk gyök a "ker". Ennek egyik "jelentésköre" az olyan szavak, amik kerüléssel, kerítéssel függnek össze, ebben mindjárt ott is a kezdésben a "ker", de a "kerület" és a "kerek" is, valamivel véleményesebb lehet a "kerget" és a "kert". "Rokon gyök" a "kör", "gör", "redukáltja" pedig a "k*r". Ezt, hogy szókincsünk nagy (és eredeti) része gyökalapú, kellene legalább statisztikailag bizonyítani.

Kódolgatás

A beszédünket rögzítő betűírás egyátalán nem az egyetlen módja annak, hogy szavaink az utókorra maradjanak, fel is vehetjük a hangokat. Ez aztán egy szemmel gyakorlatilag követhetetlen formát ölthet, ha hullámformáját megjelenítjük, a fülünk (és mögötte az agy) azonban teljes természetességgel dolgozza fel. A számítógép azonban csak számkódokra lebontott dolgokkal tud mit kezdeni, jelen esetben a hanghullámok (diszkretizált) jellemzőivel, a hullámhosszal, a fázissal, az amplitúdóval, a spektrummal. Odáig már eljutottunk, hogy tűrhetően olvas látásban korlátozott társainknak és egyszerűbb parancsszavakat akár meg is ért.

Sok minden kiderült, míg idáig jutott a kutatás, az egyik, a beszédfeldolgozásban inkább nehezítő, semmint segítő körülmény, hogy mind a magánhangzók, mind a mássalhangzók "rokoni és baráti kapcsolatban" állnak. Ami nem is meglepő, hiszen csak megfázni kell hozzá, hogy bizonyos betűk "rokonaikba" menjenek át. A "b" a "p"-be alakulhat át, de spanyol barátunk "v"-t is hallhat, ami meg az "f"-be jár át, például német barátainknál. Minden nyelvre, így a magyarra is elkészíthető ilyen táblázat, ami nagyjából három részre osztható: mássahangzók, magánhangzók és "futottak még", ugyanis a pár mássalhangzónk tulajdonképpen magában is tud hangozni, ha akar... Van olyan is, amelyik "aktívan módosítja" alapvető mássalhangzóinkat, a "t"-ből "ty"-t, az "n"-ből "ny"-t, a "d"-ből "gy"-t varázsol -- az utolsó esetben ráadásul az ábécénk egyik következetlensége is tetten érhető.

    m p,b f,v
    n
    ny
    t,d
    ty,gy
    c,dz
    cs,dzs
    sz,z
    s,zs
    k,g h
    l,r
    j

Az egésszel annyi gond van, hogy a CzFo tele van "átjáró" mássalhangzós gyökökkel (és van olyan, ahol a 1. és 3. helyen levő mássalhangzók helyet cserélhetnek), ugyanakkor az egészre magyarázatot nem ad. Nyelvünk pedig könyörtelenül bánik a hasonulás fegyverével, ami azt jelenti, hogy egy-egy gyökben egyátalán nem mindegy, megengedhető-e a kapcsolódás helyén (3. hely) egy pl. zöngés-zöngétlen páron alapuló megkülönböztetés, ez pedig a fenti kb. húszezres variációs lehetőséget erősen csökkenti. A "mennyivel?" kérdésre viszont sokkal-sokkal bonyolultabb elemzés lenne szükséges, ez ide a margóra nem fér el...

Mire jó ez?

Varga Csaba az egész számítást azért demonstrálja, hogy a "véletlen szóegyezések" esetét, tehát amikor egy vagy főleg több "gyök" egy nyelvben formailag és tartalmilag is "hasonló", akkor valószínűségi alapon megmutassa, mennyire lehet ez "véletlen". A gond az, hogy sem a formai, sem a tartalmi oldal nem az a kimondottan jól megfogható egy statisztikai elemzéshez, fentebb a formaival kapcsolatban írogattam pár nehézségről. A "hivatalos oldal" egyik ellenérve pedig az, hogy a szavak, szóbokrok megfeleltethetősége szabályszerű hangváltozásokon inkább tetten érhető (tenger/tengiz, hogy pont ne egy finnugor példát írjak), a mai szóalakokkal meg se próbálkozzunk. Rendben, de ehhez meg túl csekély a minta, hogy a szabályok kemények legyenek. Laikus számára túlontúl mesterkéltek, esetlegesek, "belemagyarázósak". A fülünk mást mond, mint amit "belénk vertek"? Hyvää huomentaa, Helsinkiben, egy török étkezdében ülve nehéz eldönteni, melyik nyelv áll közelebb hozzánk... De mindkettő messze van.

A CzFo alapötlete, a szógyök fogalma informatikai, statisztikai eszközökkel végül is jól megfogható lenne. Úgy tűnik a gyökök közti formai-hangtani összefüggésekből a megfelelő fastruktúra, vagy háló megalkotható, s elegendő számú magyar mű áll rendelkezésre, hogy számszerűsíthető legyen, mi pereg ki, s mi marad a "hálóban". Ha a magyar nyelvre működik a dolog (kicsi a hibaarány), lehet "nekimenni" a rokonnak tartott és a gyanúba keveredett nyelveknek. Működhet az elképzelés, még ha megszületésekor álmodni se lehetett a mai eszközökről. A CzFo-t ugyanis 1862-ben adták ki. Ehhez képest ma meglehetős hallgatás van körülötte. A vitát a fentebb vázolt módszerrel legalább előrébb lehetne vinni, ha lezárni nem is.

Bizonyítani meg nem lehet nagyvonalúskodva.

Jön a geek!

A munka úgy sokadik látásra is hálátlan. A CzFo által felsorolt gyökök száma az azonos alakú, de eltérő jelentéscsoportba soroltakkal (ez nem hiba, csak overloading) több százra rúg, mindegyikhez legalább négy-öt szó tartozik, de többszöröse is lehet. Ha ez fent van (ki az az elvetemült, aki felgépelné?), akkor lehet a könyv szerinti kb. 200 valódi (redukált, magánhangzótól mentesített) gyököt kikeresni és összekötni, ugyanis a CzFo minden magánhangzót külön tárgyal, csak gyenge utalás van arra, hogy ez "csak egy szint". Meg persze lehet, hogy nem, már ezt is bizonyítani kellene. (Érdekes, hogy a japán nyelv kanji írása is kb. ennyire, azaz 217 gyökre vezethető vissza, tehát legalább egy természetes nyelvben létezik a szavak, fogalmak olyan nem feltétlenül teljes, de mindennapokban használható hálózata, amely erre a szerkezetre alapul. A japán persze ezt a tőle gyökeresen különböző kínai nyelvből vette át, önmagában a gyökrendszer megléte még nem bizonyít sokat.)

Az adatokat (szavakat, gyököket, redukált gyököket) úgy kellene szervezni (és felvinni), hogy a kapcsolatok tisztán kimutathatók, vagy cáfolhatók legyenek, de ehelyett sajnos csak minősíteni lehet (erős, gyenge, kizárható, stb. kapcsolat), ami meg szubjektív. Az is szubjektív, hogy egy gyökhöz hozzátartozik-e egy szó, vagy sem. Az is lehet, hogy több gyök is jelölhető. Szóval az adatszerkezet tervezése sem a legegyszerűbb. Ráadásul meg kell küzdeni a mára eltérő helyesírással, ugyanis tesztelni a mai formában fellelhető művekkel lehet -- szigorúan a már digitalizálva elérhetőkön. Viszont pl. érdemes megtartani a CzFo-ban még jelölt "zárt e"-t, de úgy, hogy a "szitálás" során ne okozzon zavart. Sok szó ki fog peregni, ha a képzett szavak kezelése nincs rendesen megoldva (a helyesírásellenőrzőről szóló egyik írás hozza példának, hogy míg egy angol főnévnek kettő, addig a magyarnak hétszáz feletti szóalakja lehet!), ráadásul az idegen szavak is "beteszik a lábukat". A legszebb lenne, ha iteratívan saját tudását bővítené a rendszer, de kicsit nagy falat lenne programozástechnikailag.

Ha megvan a megfelelő minősített adathalmaz és a kapcsolatok, majd megtörtént a "ráeresztés" a sok-sok könyvre, akkor elvben már nemcsak egy CzFo-hoz képest jobban összefüggő, aktualizált és redukált gyököket is tartalmazó elektronikus gyökszórárunk van, hanem "lecsapódik" mellé egy statisztika arról, melyik gyök (fogalomkör) milyen gyakorisággal fordul elő mondjuk egymillió magyar szó méretű szövegben. Valamivel informatívabb, mint hogy a betűk milyen gyakoriak (az egy qwerty-nél értelmesebb billentyűzetre, meg használható SMS "kitalálom, mit akarsz írni" kódhoz jó). Viszont lehet, hogy ezzel nem a magyar nyelv sajátosságát, hanem általában a nyelvekét kapjuk meg, különben a fordítás egyikről a másikra még bonyolultabb lenne, mint most. Mandelbrotnak van erről értekezése, de ahhoz matematikus végzettség kellene...

 

Minden mást, amit az említett könyv még bemutat, érinteni se merem. Már az is szép lenne, ha a CzFo nem csak valami lenne, amiről kevesen beszélnek sokfélét, hanem úgy lenne a weben, ahogy azt egy informatikus jókedvében (azaz igényesen) megcsinálná.

 


Keresőlink a témáról: czfo nyelv elmélet

(cc)by (cc)nc (cc)sa