H-bod

Z Encyklopedie lingvistiky
Přejít na: navigace, hledání

H-bod je hodnota, která určuje hranici, nikterak ostrou, mezi synsémantickými a autosémantickými slovy ve frekvenční distribuci slov. Tu získáme tak, že nejfrekventovanějšímu slovu v textu přiřadíme pořadí (rank) jedna, druhému nejfrekventovanějšímu slovu přiřadíme pořadí dvě atd. H-bod je definován jako místo, v němž se pořadí slova rovná jeho frekvenci, tj.


h =   {    r   pokud r = f(r)
f(i)rjf(j)ri   pokud rf(r)
rjri + f(i) − f(j)


kde r je pořadí slova a f(r) frekvence slova v daném pořadí, i a j jsou pořadí slov a f(i) a f(j) jsou jejich frekvence, přičemž i < j, kde i je největší takové číslo, pro které i < f(i) , a j je nejmenší takové číslo, pro které j > f(j) .

Vzorec

(převzato z Čech et al. 2013)

Použití h-bodu v lingvistice bylo inspirováno Jorgem E. Hirschem („An Index to Quantify an Individual’s Research Output“ 2005), konkrétně jeho indexem h ve scientometrii, který charakterizuje vědecký výkon výzkumného pracovníka. Je definován jako počet článků s číslem citací ≥ h.

Obsah

Význam h-bodu

H-bod představuje hranici, byť neostrou, mezi slovy synsémantickými autosémantickými ve frekvenční distribuci. Synsémantickým slovům náleží oblast nad h-bodem – v textu se často opakují (to samozřejmě neznamená, že by se synsémantika neobjevovala i pod h-bodem, existují i synsémantická slova, jejichž význam můžeme postihnout užitím synonym). Slova autosémantická se obvykle neopakují natolik, aby se dostala nad h-bod. Když se tak stane, znamená to, že daná slova jsou velmi zdůrazňována, jsou součástí primárního tématu textu. Z těchto slov můžeme relativně snadno sestavit a odvodit hlavní téma či témata textu (Popescu a Altmann 2007).
Popescu a Altmann (2006a) představili další modifikace h-bodu; jsou jimi ''k''-bod, ''m''-bod a ''n''-bod, užívané pro frekvenční spektrum, kumulativní distribuci nebo na obrácené pořadí rank-frekvenční distribuce (Mačutek, Popescu a Altmann 2007).

Popis postupu výpočtu h-bodu na konkrétním případě

V tabulce je uvedeno deset nejfrekventovanějších slov písňového textu „Ztracená bačkorka“.

r f
1 10 lucinka
2 10 na
3 8 bačkorku
4 8 dvorku
5 8 když
6 8 si
7 6 hrála
8 6 ztratila
9 4 a
10 4 asi

Ani jedno slovo nesplňuje podmínku rovnosti pořadí a frekvence. Proto použijeme druhou část vzorce (viz výše) a dostaneme hodnotu h-bodu.


hZtracená bačkorka = 8 • 7 − 6 • 6 = 6,666667
7 − 6 + 8 − 6


Nad h-bodem se vyskytují tři tematická slova (zvýrazněná tučně) – tato slova reprezentují hlavní téma textu.


Využití h-bodu

H-bod je důležitou součástí matematických analýz textu, např. tematické koncentrace textu, kompaktnosti textu, text coverage, slovního bohatství či testování analytičnosti a syntetičnosti textu, a je tedy využíván především v matematické a kvantitativní, ale též frekvenční lingvistice (Mačutek, Popescu a Altmann 2007; Čech et al. 2013).

Bibliografie

  • Čech, Radek, Ioan-Iovitz Popescu a Gabriel Altmann. 2013. Metody kvantitativní analýzy (nejen) básnických textů. (v tisku)
  • Davidová Glogarová, Jana, Jaroslav David a Radek Čech. 2013. „Analýza tematické koncentrace textu – komparace publicistiky Ladislava Jehličky a Karla Čapka.“ Slovo a slovesnost 74 (1): 41–54.
  • Hirsch, Jorge E. 2005. „An Index to Quantify an Individual’s Research Output.“ Proceedings of the National Academy of Sciences of the USA 102: 16569–72.
  • Mačutek, Ján, Ioan-Iovitz Popescu a Gabriel Altmann. 2007. „Confidence Intervals and Tests for the h-Point and Related Text Characteristics.“ Glottometrics 15: 45–52.
  • Popescu, Ioan-Iovitz. 2007. „Text Ranking by the Weight of Highly Frequent Words.“ In Exact Methods in the Study of Language and Text, eds. Peter Grzybek a Reinhard Köhler, 555–567. Berlin – New York: Mouton de Gruyter.
  • Popescu, Ioan-Iovitz a Gabriel Altmann. 2006a. „Some Aspects of Word Frequencies.“ Glottometrics 13: 23–46.
  • Popescu, Ioan-Iovitz a Gabriel Altmann. 2006b. „Some Geometric Properties of Word Frequency Distributions.“ Göttinger Beiträge zur Sprachwissenschaft13: 87–98.
  • Popescu, Ioan-Iovitz a Gabriel Altmann. 2007a. „On the Dynamics of Word Classes in Text.“ Glottometrics 14: 58–71.
  • Popescu, Ioan-Iovitz a Gabriel Altmann. 2007b. „Writer´s View of Text Generation.“ Glottometrics 15: 71–81.


Autorka hesla


Nela Urbaniková (2014)


Garant hesla


Radek Čech


Jak citovat heslo „H-bod“


Urbaniková, Nela. 2014. „H-bod.“ Encyklopedie lingvistiky, ed. Kateřina Prokopová. Olomouc: Univerzita Palackého v Olomouci. http://oltk.upol.cz/encyklopedie/index.php5?title=H-bod

Osobní nástroje
Jmenné prostory
Varianty
Akce
Navigace
Nástroje