s-1
| * přípravy, jejich společným znakem je, že byly vypracovány ručně. |
s-2
| FSČ stojí na rozhraní této první etapy vývoje lexikální statistiky a etapy druhé, která začíná zhruba od šedesátých let tohoto století a od etapy předcházející se odlišuje zejména těmito dvěma základními rysy. |
s-3
| O problematiku lexikální statistiky, o statistický výzkum slovní zásoby, se zajímají především lingvisté, a to ve spolupráci s matematiky. |
s-4
| V lingvistice dochází totiž uznání požadavek, že k úplnému popisu jakýchkoli jazykových jevů a k postižení zákonitostí v jejich fungování je nutno zachytit vedle charakteristik kvalitativních charakteristiky kvantitativní. |
s-5
| Ve své dialektické jednotě se navzájem předpokládají a doplňují. |
s-6
| Vedle lingvistů a těch odborníků, kteří se o frekvenci slov již tradičně zajímali, pedagogů, psychologů a těsnopisců, začínají se zejména v období studia teorie informace a také její aplikace na rozmanité obory, a to i na jazykovědu, zajímat o lexikální statistiku i pracovníci z oblasti telekomunikace, akustiky, automatického referování. |
s-7
| V oblasti technické rozvíjí se prostřednictvím frekvence slova i zájem o frekvenci jednotek menších než slovo, o grafém, foném a slabiku. |
s-8
| Zájem odborníků z technické oblasti má vliv i na samu techniku při shromažďování a zpracovávání statistických dat o slovech i jiných jazykových jednotkách. |
s-9
| Tím se dostáváme k druhému znaku, kterým se vyznačují práce z druhé, současné etapy vývoje lexikální statistiky, využití moderních technických prostředků, zejména samočinných počítačů. |
s-10
| Vznikají nové frekvenční slovníky, jejichž autory jsou především lingvisté a matematici. |
s-11
| Jde tu o novou spolupráci odborníků v oblasti lexikální statistiky, jako ostatně i v jiných oblastech kvantitativní lingvistiky, a to lingvistů, matematiků a techniků. |
s-12
| Do začátku tohoto období spadá zejména Frekvenční slovník ruštiny a řada frekvenčních slovníků jazyků románských, # publikovaných, # připravovaných, jejichž hlavním autorem je lingvista * Juilland, nový Frekvenční slovník současné americké angličtiny, * Konečný, do jisté míry i Frekvenční slovník slovenštiny, FSS, a připravované další slovníky slovanských jazyků, ruštiny, polštiny. |
s-13
| Novou, moderní technikou jsou přepracovávány, k dalšímu využití připravovány starší lexikální práce, i pro využití v jiných oblastech kvantitativní lingvistiky. |
s-14
| Tak k účelům fonologické statistiky upravil a přepracoval * Roberts známý frekvenční slovník Hornův, A Basic Writing Vocabulary z * # . |
s-15
| Začátek druhé etapy lexikální statistiky zejména u nás našel vhodné podmínky pro další vývoj jednak v tom, že se v rámci kvantitativní lingvistiky, jejíž základ vlastně představuje, stává součástí matematické lingvistiky, která se u nás rozvíjí zejména v oblasti algebraické lingvistiky, jednak v tom, že živý kontakt s většinou pracovníků v oblasti kvantitativní lingvistiky doma i v zahraničí, i když někdy jen prostřednictvím odborné literatury, dává možnost propracovat užité metody a srovnávat výsledky různých lexikálních analýz. |
s-16
| Je tu řada problémů, na jejichž řešení, dořešení, závisí další úspěšný vývoj lexikální statistiky i kvantitativní lingvistiky vůbec. |
s-17
| Některým z nich budeme dále věnovat zvláštní pozornost. |
s-18
| První z nich souvisí s předmětem lingvistiky kvantitativní vůbec a lexikální zvláště. |
s-19
| Předmět kvantitativní lingvistiky můžeme v hrubých rysech formulovat jako zjišťování kvantitativní stránky jazykových jevů, kvantitativních dat o jazykových jevech a jejich strukturaci v promluvě. |
s-20
| Pokud jde o jazykové jevy, stačí připomenout známý fakt, že nemáme dosud jednoznačně definovánu většinu z nich, a to základních, jako jsou slovo a věta, ale i jednotky nižší, foném, slabika, morfém. |
s-21
| Vzhledem k přísným podmínkám pro aplikaci statistických metod a nesnadnému vedení ostré hranice mezi jednotlivými jazykovými jednotkami jsme někdy nuceni pracovat s jednotkami, které se vzhledem k složitosti jazykových jevů týkají jen některých jejich rysů. |
s-22
| V lexikální statistice se celá tato problematika týká slova jakožto jednotky souboru. |
s-23
| Jako slovo chápe se tu jednak tvar slova, slovoforma, jednak lexém, lexikální jednotka, též různé slovo. |
s-24
| V jazycích s bohatou morfologií, jako jsou jazyky slovanské, se tyto dvě podoby slova v lexikální statistice celkem jasně diferencují, v jazycích s morfologií chudou, jako jsou angličtina, němčina, nejsou tyto dvě podoby vždy dostatečně diferencovány. |
s-25
| * Herdan tu zavedl termíny sémiotické type, token, kterých však užívá ne dost jasně. |
s-26
| V kvantitativní lingvistice, v lexikální statistice se celkem vytvořil úzus, že se výrazu token užívá pro označení výskytu tvaru slova a type pro označení lexému, lexikální jednotky. |
s-27
| Někdy se však zejména v strojové lingvistice vzhledem k automatickému zpracování jazykových dat považuje za type suma všech výskytů tvaru slova, token suma všech výskytů knihy k lexému kniha, v němčině suma všech výskytů tvarů des Buches k lexému das Buch. |
s-28
| Transformace tvarů slov v jejich základní podoby, lexémy, tvar knihy zařadit pod lexém kniha nebo tvar zpívá pod lexém zpívat, stejně v němčině tvar des Buches pod lexém das Buch, er singt pod lexém singen, kterou zatím v úplnosti nikde nezpracovává stroj, nýbrž jen člověk, nazývá se někdy lemmatizací. |
s-29
| Domnívám se, že v oblasti lexikální statistiky zatím vystačíme s touto terminologií. |
s-30
| Slovo, tvar slova pro jakoukoli jednotku textu, různý tvar slova, různé tvary slova pro výskyt tvaru slova, knihy, knihou, zpívá, zpíváme, a různé slovo, lexikální jednotka, lexém. |
s-31
| Při řešení problému slova jako základní jednotky v lexikální statistice k tomu dále záleží jednak na typu jazyka, jednak na účelu, k němuž je daná lexikální analýza určena. |
s-32
| Speciální zaměření, lexikální analýza k účelům pedagogickým, těsnopiseckým, vyžaduje speciální přístup i k základní jazykové jednotce, slovu, který však nemá být v zásadním rozporu s pojetím lingvistickým. |
s-33
| Přesto však se domnívám, že v lexikální statistické analýze v rámci jednoho jazyka by se mělo co možná sjednotit chápání slova jakožto základní jednotky lexikální analýzy, aby tu bylo co nejvíce možností srovnávat výsledky různých šetření. |
s-34
| Neznamená to však, že by se měla podržovat, přejímat řešení pochybná. |
s-35
| Možností srovnávat se zhodnotí nejen výsledky práce vlastní, ale i práce cizí a vytvářejí se optimální předpoklady pro všestrannou statistickou analýzu a lexikální popis daného jazyka. |
s-36
| Vytvořením srovnávacích možností do značné míry v jednotném vymezení slova v lexikální analýze příbuzných jazyků připravila by se půda pro srovnávací typologii v oblasti lexikální statistické analýzy u jazyků slovanských. |
s-37
| V tom bych spatřovala v budoucnosti jeden z hlavních úkolů lexikální statistiky. |
s-38
| Je pozoruhodné, že se stanovení základní jednotky souboru, která by maximálně vyhovovala požadavkům jak lingvistickým, tak i statistickým, nevěnovala dosud v lexikální statistice ani šíře v oblasti kvantitativní lingvistiky hlubší pozornost. |
s-39
| Bylo to podle mého názoru jednak proto, že je to problém z hlediska lingvistického sám o sobě složitý, o jehož řešení se lingvistika pokoušela až dosud s poměrně malým úspěchem, ale jednak i proto, že se zdá někdy příliš elementárním. |
s-40
| I když jsou tyto důvody pravdivé, bez maximálně uspokojivého řešení problému, jakým je slovo při lexikální statistické analýze, stavíme na značně nejistých základech. |
s-41
| Na druhé straně není ovšem možno odsunout práce v lexikální statistice, až bude v lingvistice vůbec vyřešena problematika slova. |
s-42
| Neznamená to ani, že by lexikální statistika, kvantitativní lingvistika sama měla řešit tuto problematiku. |
s-43
| Avšak před jakoukoli lexikální analýzou je třeba vyrovnat se s daným problémem, poučit se z prací v dané oblasti již existujících a vzhledem k současnému stavu lingvistického bádání a k účelu dané práce zvolit relativně optimální řešení a důsledně je potom v dané práci zachovávat. |
s-44
| Domnívám se, že vymezení slova z hlediska statistické lexikální analýzy může přispět i k vymezení slova samého. |
s-45
| Jde tu v podstatě o vymezení slova z hlediska syntagmatického, nalezení vyhovujících měřítek pro zjištění, kde končí slovo jedno a kde začíná slovo druhé, paradigmatického, zejména při lemmatizaci, dále vztahu mezi významem a formou slova vůbec, mezi jazykovými rovinami. |
s-46
| Druhým problémem lexikální statistické analýzy je způsob výběru jazykových jednotek, slova, a rozsah výběru pro statistické zpracování. |
s-47
| Ani tomuto problému nebyla dosud věnována soustavná pozornost, řešil se jen případ od případu, ačkoli je to druhý základní problém vedle jednotky souboru, který rozhoduje o výsledcích jakékoli kvantitativní analýzy, počítaje v to samozřejmě i statistiku lexikální. |
s-48
| Je jasné, že na výběr jazykových jednotek a jeho rozsah má značný vliv sám charakter analyzované jednotky v lexikální statistice slova. |
s-49
| Je jistě rozdíl, počítáme- li jako jednotku výběru slovní tvary, nebo lexémy. |
s-50
| Při naznačení základní problematiky týkající se slova jakožto jednotky lexikální analýzy byl ponecháván stranou závažný fakt, slovnědruhový charakter slova, který má samozřejmě značný vliv nejen na jednoznačné vymezení souboru, ale i na jeho homogennost. |
s-51
| Při výběru slova jako jednotky lexikální analýzy musíme s ním však počítat, v češtině chápeme jako slovo, tvar slova, jednak tvary slov ohebných substantiv, adjektiv, zájmen, některých číslovek a sloves, jednak slova neohebná, lexémy. |
s-52
| To platí o adverbiích, předložkách, spojkách, citoslovcích a částicích. |
s-53
| Oběma těmto skupinám budeme věnovat zvláštní pozornost. |
s-54
| Kromě těchto diferencí formálních existují mezi danými slovy i rozdíly sémantické. |
s-55
| I když vzhledem k nesnadnému úkolu sémantické analýzy z hlediska statistického ponecháváme sémantiku jazykové jednotky slova celkem stranou, neobejdeme se bez přihlížení ke dvěma skupinám slov, a to slovům plnovýznamovým, substantiva, adjektiva, zájmena, číslovky, slovesa a adverbia, a slovům gramatickým, formálním, předložky, spojky, citoslovce a částice. |
s-56
| Přesná delimitace mezi oběma skupinami je nesnadná, někdy se mezi slova formální počítají i zájmena a adverbia zájmenného původu k tomu. |
s-57
| I v rámci každé z uvedených slovních tříd existují značné rozdíly sémantické. |
s-58
| Stačí připomenout rozdíl mezi substantivem a slovesem, substantivem a adjektivem, zájmenem a adverbiem. |
s-59
| Vzhledem k své stránce sémantické i k svému vztahu k jiným druhům slov má každé slovo v textu své speciální postavení a přísluší mu jiný podíl na vytváření struktury textu. |
s-60
| Za dané situace slova by bylo ideální, abychom při lexikální analýze neprováděli výběr, ale pracovali s celou slovní zásobou, se všemi texty daného funkčního stylu, alespoň s celým textem jednoho autora. |
s-61
| Tento poslední požadavek splňuje ve většině případů FSČ, pracuje většinou s celými texty, z hlediska lexikální statistiky s totálně vyexcerpovanými texty. |
s-62
| Zpravidla však vzhledem k rozsahu české slovní zásoby, ale i k délce jednotlivých textů nemůžeme pracovat s celým slovním materiálem a musíme pořizovat výběr z něho. |
s-63
| Někdy však nemůžeme pracovat s celými texty také proto, že obsahují různý počet slov, čili mají různou délku textu, která má velký vliv na výskyt a frekvenci některých jazykových jevů, zejména slov. |
s-64
| Tento faktor je pak třeba eliminovat. |
s-65
| V těchto a podobných případech provádíme výběr jazykových jednotek, slov, tak, aby získaný soubor byl reprezentativní jak z hlediska statistického, tak i lingvistického. |
s-66
| Je známo, že statistika disponuje tu řadou metod výběru, ať už je to výběr náhodný, oblastní, mechanický, nebo jiný. |
s-67
| Z hlediska lingvistického je pro výběr vhodné statistické metody rozhodující, které jednotky, slova, i v které jejich konkrétní reprezentaci daným výběrem postihneme a jaký obraz o textu jako celku tímto způsobem dostaneme, mohli bychom dostat. |
s-68
| Při lexikální statistice jde nám mimo jiné, alespoň v jisté etapě, o počet různých slov, o slovník textu. |
s-69
| Vzhledem k tomu, že se tvary ohebných slov vyskytují v textu vedle slov neohebných jako rovnocenná jednotka, musíme při sestavování slovníku tyto jednotky transformovat do jejich základní podoby, tvary substantiv a adjektiv do nominativu, tvary slovesné do infinitivu. |
s-70
| Zde jsou značné rozdíly nejen u jazyků typologicky odlišných, jako jsou jazyky slovanské, germánské a románské, ale i u jednotlivých druhů slov v jednom jazyce. |
s-71
| Substantiva v češtině mají vzhledem k své významné frekvenci v nominativu, FSČ, mnohem blíže k základní podobě nominativu než slovesné tvary k infinitivu, který sám patří k relativně velmi málo frekventovaným tvarům, podle FSČ asi # * všech slovesných tvarů. |
s-72
| V tom je velký rozdíl mezi textem anglickým a českým. |
s-73
| V anglickém textu je relativně menší rozdíl v počtu tvarů slov a lexémů. |
s-74
| Výskytem slov v jejich základní podobě, slov neohebných vedle slov ohebných v různé míře vzdálených od jejich základní podoby, zmenšuje se do jisté míry rozdíl mezi textem na rovině tvarů slov a slovníkem textu. |
s-75
| V češtině v textech uměleckého stylu, prozaických, představuje počet lexémů # * délky, v textech naučného stylu # * , tyto vztahy mezi počtem tvarů slov a počtem lexémů musíme přirozeně brát v úvahu při pořizování jakéhokoli výběru pro potřeby lexikální statistiky. |
s-76
| Se způsobem výběru materiálu souvisí i rozsah materiálu určeného k lexikální statistické analýze. |
s-77
| Je jistě rozdíl, opíráme- li se o # slov, nebo o # slov. |
s-78
| Kdy a jak velký rozsah materiálu pro daný účel lexikální statistické analýzy může stačit, stačí, nebylo zatím stanoveno ani naznačeno. |
s-79
| To lze ovšem učinit jen do jisté míry, neboť účel statistické analýzy má a musí mít vliv na rozsah zkoumaného lexikálního materiálu. |
s-80
| Volbou vhodného výběru pro účely lexikální statistiky i rozsahem výběru zabývám se podrobněji zde v kapitole * . |
s-81
| Závažným problémem lexikální statistiky a ovšem i kvantitativní lingvistiky vůbec je přístup ke statistickým datům o jazykových jevech, v našem případě o slovech. |
s-82
| Za daného stavu jak kvantitativní lingvistiky, tak i lexikální statistiky získáváme stále ještě většinou statistická data základní a nezbytná. |
s-83
| Je totiž nutné, abychom znali základní statistické údaje o jednotlivých jazykových jevech založené na dostatečně rozsáhlém materiálu, abychom měli možnost rozpoznat zákonitosti, které se projevují právě ve větších souborech. |
s-84
| Na tomto podkladě je pak možno uplatnit i počet pravděpodobnosti a na základě matematické statistiky vytvářet modely, jimiž se popisují slova a zákonitosti jejich užití, vytvářet celé systémy takových modelů a srovnávat je se skutečností. |
s-85
| V kvantitativní lingvistice a samozřejmě i v statistice lexikální to znamená, že bychom od statistické analýzy jednotlivých jevů mohli přistoupit k tomu, že bychom mohli sledovat i fungování jazykových jevů v textu, a tudíž nově postihnout i zákonitosti strukturace textu z hlediska lexikálního. |
s-86
| Matematická statistika nabízí nám řadu metod k srovnávání modelů se skutečností, s daným stavem jazykové jednotky, slova. |
s-87
| Jde o teorii odhadu a testování hypotéz, na jejichž základě se daný model buď přijímá, nebo zamítá. |
s-88
| Ovšem ani tyto metody nemohou řešit všechny otázky týkající se dané lexikální problematiky. |
s-89
| Vzhledem k specifické povaze jazykového materiálu vůbec a slovního zvláště je třeba vytvářet celou hierarchii modelů různých typů. |
s-90
| Bohatství slovníku snažící se vystihnout složitou otázku struktury slovníku nelze postihnout jedinou formulí, Guirauda, ale celým systémem charakteristik, jak podrobně dále doložím. |
s-91
| Základní statistické údaje o slovech dostáváme zejména v podobě tabulek a grafů. |
s-92
| Někdy se pokoušíme vystihnout zjištěné zákonitosti prostřednictvím matematických formulí. |
s-93
| To však není z hlediska lingvistického cílem, nýbrž jen prostředkem k odhalení nových vlastností jazykové jednotky, slova, k jejímu výkladu. |
s-94
| Z hlediska lingvistického pokládáme však za nezbytné jak v oblasti kvantitativní lingvistiky vůbec, tak i lexikální statistiky, má- li tu aplikace statistických metod znamenat opravdový přínos i pro lingvistiku, podávat lingvistickou interpretaci statistických dat, formulí. |
s-95
| Je pochopitelné, že se velmi často při tom ukazují meze užitých metod, s nimiž přirozeně musíme počítat, potřeba znát i další údaje o témž jevu i ve vztahu k jinému jazykovému jevu, které bychom si bez lingvistického výkladu statistických dat a formulí ani neuvědomovali. |
s-96
| Právě v lingvistické interpretaci statistických dat spatřuji největší přínos statistických metod pro lingvistiku vůbec. |
s-97
| Z hlediska lexikální statistiky pokládám za nezbytné sledovat nejen obecně slovo, ať už jde o tvar slova nebo o lexém, nejen slova formální a plnovýznamová, nýbrž i jejich slovnědruhový charakter. |
s-98
| Ten nám může do jisté míry podat základní sémantické charakteristiky slova, zvláště to platí o substantivech a slovesech a o jejich souputnících, * jsou adjektiva ve vztahu k substantivům a adverbia ve vztahu k slovesům. |
s-99
| Zvláště to má význam dotud, pokud vzhledem k složitosti sémantické problematiky vůbec a při aplikaci statistických metod zvláště stojíme na prahu i studia sémantického. |
s-100
| Ve velmi jednoduché formě se o sémantickou kvantifikaci pokouším i v statistické analýze jednotlivých druhů slov, viz * . |