H-bod
H-bod je hodnota, která určuje hranici, nikterak ostrou, mezi synsémantickými a autosémantickými slovy ve frekvenční distribuci slov. Tu získáme tak, že nejfrekventovanějšímu slovu v textu přiřadíme pořadí (rank) jedna, druhému nejfrekventovanějšímu slovu přiřadíme pořadí dvě atd. H-bod je definován jako místo, v němž se pořadí slova rovná jeho frekvenci, tj.
h = { | r | pokud r = f(r) |
f(i)rj − f(j)ri | pokud r ≠ f(r) | |
rj − ri + f(i) − f(j) | ||
kde r je pořadí slova a f(r) frekvence slova v daném pořadí, i a j jsou pořadí slov a f(i) a f(j) jsou jejich frekvence, přičemž i < j, kde i je největší takové číslo, pro které i < f(i) , a j je nejmenší takové číslo, pro které j > f(j) .
Vzorec
(převzato z Čech et al. 2013)
Použití h-bodu v lingvistice bylo inspirováno Jorgem E. Hirschem („An Index to Quantify an Individual’s Research Output“ 2005), konkrétně jeho indexem h ve scientometrii, který charakterizuje vědecký výkon výzkumného pracovníka. Je definován jako počet článků s číslem citací ≥ h.
Obsah |
Význam h-bodu
H-bod představuje hranici, byť neostrou, mezi slovy synsémantickými autosémantickými ve frekvenční distribuci. Synsémantickým slovům náleží oblast nad h-bodem – v textu se často opakují (to samozřejmě neznamená, že by se synsémantika neobjevovala i pod h-bodem, existují i synsémantická slova, jejichž význam můžeme postihnout užitím synonym). Slova autosémantická se obvykle neopakují natolik, aby se dostala nad h-bod. Když se tak stane, znamená to, že daná slova jsou velmi zdůrazňována, jsou součástí primárního tématu textu. Z těchto slov můžeme relativně snadno sestavit a odvodit hlavní téma či témata textu (Popescu a Altmann 2007).
Popescu a Altmann (2006a) představili další modifikace h-bodu; jsou jimi ''k''-bod, ''m''-bod a ''n''-bod, užívané pro frekvenční spektrum, kumulativní distribuci nebo na obrácené pořadí rank-frekvenční distribuce (Mačutek, Popescu a Altmann 2007).
Popis postupu výpočtu h-bodu na konkrétním případě
V tabulce je uvedeno deset nejfrekventovanějších slov písňového textu „Ztracená bačkorka“.
r | f | |
---|---|---|
1 | 10 | lucinka |
2 | 10 | na |
3 | 8 | bačkorku |
4 | 8 | dvorku |
5 | 8 | když |
6 | 8 | si |
7 | 6 | hrála |
8 | 6 | ztratila |
9 | 4 | a |
10 | 4 | asi |
Ani jedno slovo nesplňuje podmínku rovnosti pořadí a frekvence. Proto použijeme druhou část vzorce (viz výše) a dostaneme hodnotu h-bodu.
hZtracená bačkorka = | 8 • 7 − 6 • 6 | = 6,666667 |
7 − 6 + 8 − 6 |
Nad h-bodem se vyskytují tři tematická slova (zvýrazněná tučně) – tato slova reprezentují hlavní téma textu.
Využití h-bodu
H-bod je důležitou součástí matematických analýz textu, např. tematické koncentrace textu, kompaktnosti textu, text coverage, slovního bohatství či testování analytičnosti a syntetičnosti textu, a je tedy využíván především v matematické a kvantitativní, ale též frekvenční lingvistice (Mačutek, Popescu a Altmann 2007; Čech et al. 2013).
Bibliografie
- Čech, Radek, Ioan-Iovitz Popescu a Gabriel Altmann. 2013. Metody kvantitativní analýzy (nejen) básnických textů. (v tisku)
- Davidová Glogarová, Jana, Jaroslav David a Radek Čech. 2013. „Analýza tematické koncentrace textu – komparace publicistiky Ladislava Jehličky a Karla Čapka.“ Slovo a slovesnost 74 (1): 41–54.
- Hirsch, Jorge E. 2005. „An Index to Quantify an Individual’s Research Output.“ Proceedings of the National Academy of Sciences of the USA 102: 16569–72.
- Mačutek, Ján, Ioan-Iovitz Popescu a Gabriel Altmann. 2007. „Confidence Intervals and Tests for the h-Point and Related Text Characteristics.“ Glottometrics 15: 45–52.
- Popescu, Ioan-Iovitz. 2007. „Text Ranking by the Weight of Highly Frequent Words.“ In Exact Methods in the Study of Language and Text, eds. Peter Grzybek a Reinhard Köhler, 555–567. Berlin – New York: Mouton de Gruyter.
- Popescu, Ioan-Iovitz a Gabriel Altmann. 2006a. „Some Aspects of Word Frequencies.“ Glottometrics 13: 23–46.
- Popescu, Ioan-Iovitz a Gabriel Altmann. 2006b. „Some Geometric Properties of Word Frequency Distributions.“ Göttinger Beiträge zur Sprachwissenschaft13: 87–98.
- Popescu, Ioan-Iovitz a Gabriel Altmann. 2007a. „On the Dynamics of Word Classes in Text.“ Glottometrics 14: 58–71.
- Popescu, Ioan-Iovitz a Gabriel Altmann. 2007b. „Writer´s View of Text Generation.“ Glottometrics 15: 71–81.
Autorka hesla
Nela Urbaniková (2014)
Garant hesla
Radek Čech
Jak citovat heslo „H-bod“
Urbaniková, Nela. 2014. „H-bod.“ Encyklopedie lingvistiky, ed. Kateřina Prokopová. Olomouc: Univerzita Palackého v Olomouci. http://oltk.upol.cz/encyklopedie/index.php5?title=H-bod