Natrag   Forum.hr > Društvo > Društvene znanosti > Jezikoslovlje

Jezikoslovlje Za pravopiždžije i jezikolomce

Zatvorena tema
 
Tematski alati Opcije prikaza
Old 19.04.2023., 16:24   #1
Smanjuje li komplicirani pravopis kolizijsku entropiju pisanog jezika?

Dakle, smanjuje li komplicirani pravopis (kakav imaju engleski, francuski ili tibetanski) kolizijsku entropiju pisanog jezika?

Na prvi pogled, čini se da je odgovor "Očito ne.", jer način na koji se riječi pišu u jezicima s kompliciranim pravopisom u načelu predstavlja kako su se te riječi izgovarale u prošlosti. Čini se apsurdnim sugerirati da se kolizijska entropija jezika povećava s vremenom. Zar bi jezici koji su se govorili u prošlosti trebali imati manju kolizijsku entropiju nego današnji jezici?

Međutim, u tekstu koji sam lani objavio u Valpovačkom godišnjaku i Regionalnim studijama (u biti, to je ovaj tekst, samo drugačije uređen), izmjerio sam kolizijske entropije pet jezika, i rezultate stavio u tablicu:
https://flatassembler.github.io/tabl...entropijom.png
Dakle, pogledajmo te podatke. Mislim da bi se svatko složio da engleski i francuski imaju daleko kompliciraniji pravopis nego preostala tri jezika. A engleski i francuski imaju najnižu kolizijsku entropiju i u dugačkom tekstu i u Aspellovoj listi riječi. Kolika je vjerojatnost da se to dogodi slučajno? Pa, moja gruba procjena je da je ta vjerojatnost (p-vrijednost) 1/((5!/(2!*(5-2)!))^2)*2=1/50.

Naravno, da bismo dobili bolji rezultat, morali bismo naći nekakav objektivan način da izmjerimo kompliciranost pravopisa nekog jezika (Ima li engleski ili francuski kompliciraniji pravopis?), to učiniti za mnogo jezika, izmjeriti kolizijsku entropiju mnogo jezika, i pogledati postoji li korelacija. Znate li neku studiju koja je to već napravila? Nije važno je li riječ o kolizijskoj entropiji ili Shannonovoj entropiji, mislim da je nemoguće da to vrijedi za jednu od te dvije entropije, a ne i za drugu.

Zadnje uređivanje lemonzoo : 20.04.2023. at 19:56. Reason: Prevelika slika pretvorena u link.
teo1 is offline  
Old 19.04.2023., 21:14   #2
Quote:
teo1 kaže: Pogledaj post
Dakle, smanjuje li komplicirani pravopis (kakav imaju engleski, francuski ili tibetanski) kolizijsku entropiju pisanog jezika?
Quote:
Sta je entropija gramatike?
Quote:
Mislim, utjecaj dijelova gramatike (morfologija, sintaksa i fonologija) na entropiju jezika.
Vidim da si na "redditu" objasnio što je entropija gramatike. Vjerojatno se time baviš u sklopu studija.

Međutim, ovdje nećeš naći sugovornika. Studenti svoja specijalna studijska pitanja rješavaju sami, a ovamo uglavnom zalaze korisnici koje zanimaju teme iz "opće gramatike".
Shain is offline  
Old 19.04.2023., 21:43   #3
Quote:
Shain kaže:
Vjerojatno se time baviš u sklopu studija.
Ne, nema to previše veze s onime što se uči na FERIT-u. Na fakultetu nismo ni spomenuli kolizijsku entropiju. Spomenuli smo, doduše, na više kolegija Shannonovu entropiju (na Teoriji informacija i Komunikacijskim mrežama, ako se dobro sjećam). Za kolizijsku entropiju sam doznao sam, i sam sam napravio ona mjerenja.
teo1 is offline  
Old 20.04.2023., 12:49   #4
O ne, opet ovo
Al dente is offline  
Old 20.04.2023., 16:53   #5
Entropija je ono kad ne znaš isključiti spell checker prije nego što pritisneš tipku Print Scrn, a teoretizirao bi o koliziji. Raspad sustava uzrokovan brojnim udarcima u glavu, pretpostavljam.
__________________
What the heck, Hek?!
Hekatonhir is offline  
Old 20.04.2023., 18:59   #6
Quote:
Al dente kaže: Pogledaj post
O ne, opet ovo
Never a dull moment.
DarkDivider is offline  
Old 20.04.2023., 22:19   #7
Quote:
teo1 kaže: Pogledaj post
Za kolizijsku entropiju sam doznao sam, i sam sam napravio ona mjerenja.
Možeš li ti meni neznalici objasniti dvoje?

Prvo, što je kolizijska entropija u lingvistici? Namjerno ističem lingvistiku jer i ti, otkako si se prvi put javio ovdje, pišeš o lingvističkom aspektu svojih razmišljanja, istraživanja, proučavanja - nazovi to kako hoćeš, a i pišeš na podforumu kojise naziva Jezikoslovlje.

Drugo, što znači da si sam doznao za kolizijsku entropiju? Naime, ovdje pišeš kako je na faksu niste ni spomenuli. Znači li "doznao" da si negdje drugo pročitao taj pojam ili da si ga sam iznašao?

Lijepo molim kratke i jednostavne odgovore. Definicije, i to krajnje jasne.

Vjerujem da ćemo ti svi ovdje biti zahvalni na odgovorima.
Didi is offline  
Old 20.04.2023., 23:01   #8
Quote:
Al dente kaže: Pogledaj post
O ne, opet ovo
Što opet? Moji su prijašnji postovi bili o ideji da se pomoću kolizijske entropije i Paradoksa rođendana mogu odrediti p-vrijednosti nekih važnih uzoraka u toponimima. Ovaj post je o ideji da komplicirani pravopis smanjuje entropiju pisanog jezika. Nije ista stvar.

Uostalom, Vi ste došli na tu ideju. Vi ste rekli da mislite da je "th" najčešća skupina od dva slova u engleskom jeziku primarno zato što ona označava dva različita fonema.

Poslano sa mog SM-J330F koristeći Tapatalk
teo1 is offline  
Old 20.04.2023., 23:04   #9
Quote:
Hekatonhir kaže: Pogledaj post
Entropija je ono kad ne znaš isključiti spell checker prije nego što pritisneš tipku Print Scrn, a teoretizirao bi o koliziji. Raspad sustava uzrokovan brojnim udarcima u glavu, pretpostavljam.
Oprosti, nisu nas na fakultetu naučili kako isključiti spell checker.

Zašto kažeš "teoretizirao"? Ja radim mjerenja i statističke analize, a ne nagađanja.

Poslano sa mog SM-J330F koristeći Tapatalk
teo1 is offline  
Old 20.04.2023., 23:04   #10
Quote:
teo1 kaže: Pogledaj post
Što opet? (...)
Pa ti

Quote:
(...) Ovaj post je o ideji da komplicirani pravopis smanjuje entropiju pisanog jezika. (...) Uostalom, Vi ste došli na tu ideju. (...)
O čemu baljezgaš? Gdje sam ja to izjavio? Citiraj.

Quote:
(...) Vi ste rekli da mislite da je "th" najčešća skupina od dva slova u engleskom jeziku (...)
Citiraj gdje sam ja to izjavio.
Al dente is offline  
Old 20.04.2023., 23:16   #11
Quote:
Didi kaže: Pogledaj post
Možeš li ti meni neznalici objasniti dvoje?



Prvo, što je kolizijska entropija u lingvistici? Namjerno ističem lingvistiku jer i ti, otkako si se prvi put javio ovdje, pišeš o lingvističkom aspektu svojih razmišljanja, istraživanja, proučavanja - nazovi to kako hoćeš, a i pišeš na podforumu kojise naziva Jezikoslovlje.



Drugo, što znači da si sam doznao za kolizijsku entropiju? Naime, ovdje pišeš kako je na faksu niste ni spomenuli. Znači li "doznao" da si negdje drugo pročitao taj pojam ili da si ga sam iznašao?



Lijepo molim kratke i jednostavne odgovore. Definicije, i to krajnje jasne.



Vjerujem da ćemo ti svi ovdje biti zahvalni na odgovorima.
Kolizijska entropija je negativni logaritam vjerojatnosti da, ako dva puta nasumice odabereš znak iz nekog stringa, oba puta odabereš jednaki. Ekvivalentno, to je negativni logaritam zbroja kvadrata relativnih frekvencija. Primjer imaš na, ako se ne varam, 5. stranici teksta koji sam objavio u Valpovačkom godišnjaku i u Regionalnim studijama.

Na ideju kolizijske entropije došao sam sâm, isprva sam je zvao "Samaržijina entropija", a kasnije me je netko na internetskom forumu uputio da je Alfred Renyi došao na istu ideju i zvao ju "kolizijska entropija".

Poslano sa mog SM-J330F koristeći Tapatalk
teo1 is offline  
Old 21.04.2023., 00:01   #12
Quote:
teo1 kaže: Pogledaj post
Kolizijska entropija je negativni logaritam vjerojatnosti da, ako dva puta nasumice odabereš znak iz nekog stringa, oba puta odabereš jednaki. Ekvivalentno, to je negativni logaritam zbroja kvadrata relativnih frekvencija. Primjer imaš na, ako se ne varam, 5. stranici teksta koji sam objavio u Valpovačkom godišnjaku i u Regionalnim studijama.

Na ideju kolizijske entropije došao sam sâm, isprva sam je zvao "Samaržijina entropija", a kasnije me je netko na internetskom forumu uputio da je Alfred Renyi došao na istu ideju i zvao ju "kolizijska entropija".
Nažalost, matematika je davno ostala iza mene, ali te neću gnjaviti da mi ovo što si napisao objašnjavaš onako kako sam te zamolila, to jest tako da razumijem. Uglavnom, shvaćam da je riječ o matematičkim metodama u lingvistici. Točno? Je li Rényi svoju entropiju namijenio tomu ili je mislio na neku drugu svrhu?

U vezi s ovim što sam istaknula crvenim, koliko god bila loša matematičarka, logika mi kaže da treba krenuti od dovoljno velikoga referentnog uzorka. U ovome svojem radu, bar koliko sam primijetila, nisi uopće točno odredio taj uzorak.

U svakom slučaju, hvala ti na odgovoru. O & O.
Didi is offline  
Old 21.04.2023., 17:18   #13
Quote:
Didi kaže:
Uglavnom, shvaćam da je riječ o matematičkim metodama u lingvistici. Točno?
Da.
Quote:
Didi kaže:
Je li Rényi svoju entropiju namijenio tomu ili je mislio na neku drugu svrhu?
Ako se ne varam, Renyi je definirao kolizijsku entropiju za nešto u vezi s kvantnom spregom.
Quote:
Didi kaže:
U vezi s ovim što sam istaknula crvenim, koliko god bila loša matematičarka, logika mi kaže da treba krenuti od dovoljno velikoga referentnog uzorka. U ovome svojem radu, bar koliko sam primijetila, nisi uopće točno odredio taj uzorak.
"Dugačak tekst" je za većinu tih jezika, koliko se sjećam, bilo prvih nekoliko poglavlja Ivanova evanđelja kopirano s bible.com. Zašto misliš da je to važno? Važno je jedino da onaj tko sastavlja taj tekst ne pokušava svjesno manipulirati entropijom teksta, recimo, tako da što više riječi počinje sa slovom 'p', a baš sam siguran da mi se tako nešto nije dogodilo.
A Aspellova lista riječi sigurno je dovoljno velik uzorak (milijuni znakova) i "dovoljno određen".

Gle, ja razumijem da se pokušaj da se napravi znanost bez statistike čini privlačnim. Razumijem otpor prema matematičkim metodama. Ali moramo uzeti u obzir da je medicina prije statistike često bila gora nego beskorisna. Pogledaj smrt Georgea Washingtona. To je bila medicina prije statistike: hrpa "lijekova" koji u najboljem slučaju ublažavaju simptome (puštanje krvi ublažit će simptome ako su uzrokovani visokim krvnim tlakom), i najčešće su kontraproduktivni (Georgea Washingtona je vjerojatno ubilo). I s obzirom da današnja povijesna lingvistika ne koristi statistiku, i ona je vjerojatno takva, samo što mi to sada ne vidimo.
teo1 is offline  
Old 21.04.2023., 22:11   #14
Ti dakle, kao i prije, brojiš slova?
Al dente is offline  
Old 21.04.2023., 23:02   #15
Quote:
Al dente kaže: Pogledaj post
Ti dakle, kao i prije, brojiš slova?
Za ovo pitanje to jedino i ima smisla, jer mi je cilj doznati da li pisani jezici s kompliciranijim pravopisom imaju nižu kolizijsku entropiju nego pisani jezici s jednostavnijim pravopisom.

Poslano sa mog SM-J330F koristeći Tapatalk
teo1 is offline  
Old 21.04.2023., 23:19   #16
Teo, neću citirati dijelove iz tvojega posta, ali vjerujem da ćeš se snaći. Nema razloga lingvistici imputirati otpor prema statistici i općenito matematici. Dapače, lingvistika se matematičkim metodama uvelike služi, no one su za nju sredstvo, a ne svrha. No jezik je ljudska djelatnost unutar konkretne jezične zajednice - u tome je smislu okej promatrati i uspoređivati različite jezike, pri čemu ne treba zaboraviti da se jezik kao ljudska djelatnost tu javlja kao sustav i kao realizacija toga sustava. Ako se u tim okvirima nešto mjeri i / ili određuje, jasno je da će se primijeniti neka od navedenih metoda, ali one nisu, ne mogu i ne smiju biti same sebi svrhom.

U svojem razmatranju ti jezik (kao sustav unutar pojedine jezične zajednice - hrvatski, njemački, francuski itd.) ponajprije promatraš statički, a jezik se neprestano mijenja. Polazim od pitanja koje si postavio u naslovu ove teme gdje govoriš o kompliciranom pravopisu, pri čemu ne vidim da si igdje definirao pojam "komplicirani pravopis". Kao prvo, nijedan pravopis nije kompliciran sam po sebi: kompliciran je zato što ne poznajemo njegova pravila, kao i zato što ne bilježi svaki fonem (glas) istim znakom (slovom). Dakle, kompliciran je subjektivno. S druge pak strane pravopisna se pravila mijenjaju - ja sam "proživjela" nekoliko pravopisa, ali i francuski je malo "popustio", no bez obzira na to u kojoj mjeri, jezik se mijenja, pravopis se mijenja. Znači, najprije bi morao točno odrediti trenutak u kojemu promatraš pojedini jezik i njegov pravopis, što nisi učinio, a tek onda krenuti dalje, to jest primijeniti statistiku u povijesnoj lingvistici: reći "u tom i tom trenutku bilo je tako i tako, a nakon pet (ili već ne znam koliko godina) to se promijenilo i ispalo je tako i tako". Pa usporediti cijeli niz takvih situacija i statistički ih obraditi. No to znači silno mnogo istraživanja, prekapanja po starim rukopisima, gutanja prašine, odgonetanja zapisa jer nije sve digitalizirano, daleko od toga. To se, ako se ne varam, zove dijakronija.
Didi is offline  
Old 22.04.2023., 16:24   #17
Quote:
Didi kaže: Pogledaj post
Teo, neću citirati dijelove iz tvojega posta, ali vjerujem da ćeš se snaći. Nema razloga lingvistici imputirati otpor prema statistici i općenito matematici. Dapače, lingvistika se matematičkim metodama uvelike služi, no one su za nju sredstvo, a ne svrha. No jezik je ljudska djelatnost unutar konkretne jezične zajednice - u tome je smislu okej promatrati i uspoređivati različite jezike, pri čemu ne treba zaboraviti da se jezik kao ljudska djelatnost tu javlja kao sustav i kao realizacija toga sustava. Ako se u tim okvirima nešto mjeri i / ili određuje, jasno je da će se primijeniti neka od navedenih metoda, ali one nisu, ne mogu i ne smiju biti same sebi svrhom.

U svojem razmatranju ti jezik (kao sustav unutar pojedine jezične zajednice - hrvatski, njemački, francuski itd.) ponajprije promatraš statički, a jezik se neprestano mijenja. Polazim od pitanja koje si postavio u naslovu ove teme gdje govoriš o kompliciranom pravopisu, pri čemu ne vidim da si igdje definirao pojam "komplicirani pravopis". Kao prvo, nijedan pravopis nije kompliciran sam po sebi: kompliciran je zato što ne poznajemo njegova pravila, kao i zato što ne bilježi svaki fonem (glas) istim znakom (slovom). Dakle, kompliciran je subjektivno. S druge pak strane pravopisna se pravila mijenjaju - ja sam "proživjela" nekoliko pravopisa, ali i francuski je malo "popustio", no bez obzira na to u kojoj mjeri, jezik se mijenja, pravopis se mijenja. Znači, najprije bi morao točno odrediti trenutak u kojemu promatraš pojedini jezik i njegov pravopis, što nisi učinio, a tek onda krenuti dalje, to jest primijeniti statistiku u povijesnoj lingvistici: reći "u tom i tom trenutku bilo je tako i tako, a nakon pet (ili već ne znam koliko godina) to se promijenilo i ispalo je tako i tako". Pa usporediti cijeli niz takvih situacija i statistički ih obraditi. No to znači silno mnogo istraživanja, prekapanja po starim rukopisima, gutanja prašine, odgonetanja zapisa jer nije sve digitalizirano, daleko od toga. To se, ako se ne varam, zove dijakronija.
Ozbiljno, čovječe? Težina pravopisa je subjektivna? Misliš da se ne bi svatko tko zna o čemu priča složio da su engleski i francuski pravopisi znatno teži nego njemački, hrvatski i talijanski?

Mi se danas smijemo Levyju što je rekao o Semmelweisovom radu "A zašto nije proveden jednostavniji i uvjerljiviji eksperiment, da se u rodilištu prekinu sve obdukcije?". Taj njegov prigovor očito nije dobar argument. Ali ti radiš još besmislenije argumente, ti predlažeš ne da se učini jednostavniji eksperiment, nego da se učini kompliciraniji eksperiment. Oprosti, ali to je ekstremno kršenje znanstvene metode. I Levy je kršio znanstvenu metodu, ali ti je kršiš na još gori način.
teo1 is offline  
Old 22.04.2023., 17:43   #18
Quote:
teo1 kaže: Pogledaj post
Ozbiljno, čovječe? Težina pravopisa je subjektivna? Misliš da se ne bi svatko tko zna o čemu priča složio da su engleski i francuski pravopisi znatno teži nego njemački, hrvatski i talijanski?
Ozbiljno, čovječe. Da postoji objektivno jednostavan pravopis, zar ga ne bi sve europske države već prihvatile? Govornici su svoje jezike zapisivali što su bolje znali i u skladu s time razvili različite tradicije. Ako ti pravopisi govornicima tih jezika ispunjavaju potrebe, tko si ti da tako paušalno odrediš što je lagan, a što težak pravopis? Jer bismo prema tvojem uskogrudnom načinu razmišljanja mogli reći i da su devanagari, hijeroglifi, hiragana i katakana "komplicirani pravopisi", a očito se ljudi koji se njima služe sasvim dobro snalaze u tim sustavima pisanja.

Inače, malo si me podsjetio na onu divnu priču o reformi engleskoga pravopisa. Ah, ze drem...

Quote:
teo1 kaže: Pogledaj post
Mi se danas smijemo Levyju što je rekao o Semmelweisovom radu "A zašto nije proveden jednostavniji i uvjerljiviji eksperiment, da se u rodilištu prekinu sve obdukcije?". Taj njegov prigovor očito nije dobar argument. Ali ti radiš još besmislenije argumente, ti predlažeš ne da se učini jednostavniji eksperiment, nego da se učini kompliciraniji eksperiment. Oprosti, ali to je ekstremno kršenje znanstvene metode. I Levy je kršio znanstvenu metodu, ali ti je kršiš na još gori način.
Za ljubav Božju, ako kaniš stalno potezati analogije, barem si nađi neku drugu povijesnu osobu. Siroti se Semmelweis ne može pošteno odmoriti u grobu koliko ga zazivaš.
DarkDivider is offline  
Old 22.04.2023., 18:15   #19
Quote:
teo1 kaže: Pogledaj post
Ozbiljno, čovječe? Težina pravopisa je subjektivna? Misliš da se ne bi svatko tko zna o čemu priča složio da su engleski i francuski pravopisi znatno teži nego njemački, hrvatski i talijanski?
Vjerovao ili ne, ali meni nijedan pravopis nije težak: kad shvatiš i naučiš pravila, dalje je lako.

Quote:
Mi se danas smijemo Levyju što je rekao o Semmelweisovom radu "A zašto nije proveden jednostavniji i uvjerljiviji eksperiment, da se u rodilištu prekinu sve obdukcije?". Taj njegov prigovor očito nije dobar argument. Ali ti radiš još besmislenije argumente, ti predlažeš ne da se učini jednostavniji eksperiment, nego da se učini kompliciraniji eksperiment. Oprosti, ali to je ekstremno kršenje znanstvene metode. I Levy je kršio znanstvenu metodu, ali ti je kršiš na još gori način.
Ja se nikome ne smijem: molim te ne miješaj me u svoje obračune s davno pokojnim liječnicima. I ne, ja ne radim nikakav argument jer argument ne znači isto što i eksperiment. Nevažno. Radije mi objasni, a usput i svima ostalima, kako zamišljaš izvođenje eksperimenta u lingvistici. Znanosti koja se, pojednostavljeno rečeno, zasniva na promatranju i opisivanju činjenica.

Čini mi se da smo o ovome problemu već raspravljali.
Didi is offline  
Old 22.04.2023., 18:46   #20
Quote:
teo1 kaže: Pogledaj post
Za ovo pitanje to jedino i ima smisla, jer mi je cilj doznati da li pisani jezici s kompliciranijim pravopisom imaju nižu kolizijsku entropiju nego pisani jezici s jednostavnijim pravopisom. (...)
A koja je to korelacija između prebrojanih slova i kompliciranosti (na stranu što to točno jest) pravopisa?
Al dente is offline  
Zatvorena tema



Kreni na podforum




Sva vremena su GMT +2. Trenutno vrijeme je: 23:58.