Dependency Tree

Universal Dependencies - Czech - CAC

LanguageCzech
ProjectCAC
Corpus Parttrain

Select a sentence

Showing 1 - 100 of 121 • previousnext

s-1 * přípravy, jejich společným znakem je, že byly vypracovány ručně.
s-2 FSČ stojí na rozhraní této první etapy vývoje lexikální statistiky a etapy druhé, která začíná zhruba od šedesátých let tohoto století a od etapy předcházející se odlišuje zejména těmito dvěma základními rysy.
s-3 O problematiku lexikální statistiky, o statistický výzkum slovní zásoby, se zajímají především lingvisté, a to ve spolupráci s matematiky.
s-4 V lingvistice dochází totiž uznání požadavek, že k úplnému popisu jakýchkoli jazykových jevů a k postižení zákonitostí v jejich fungování je nutno zachytit vedle charakteristik kvalitativních charakteristiky kvantitativní.
s-5 Ve své dialektické jednotě se navzájem předpokládají a doplňují.
s-6 Vedle lingvistů a těch odborníků, kteří se o frekvenci slov již tradičně zajímali, pedagogů, psychologů a těsnopisců, začínají se zejména v období studia teorie informace a také její aplikace na rozmanité obory, a to i na jazykovědu, zajímat o lexikální statistiku i pracovníci z oblasti telekomunikace, akustiky, automatického referování.
s-7 V oblasti technické rozvíjí se prostřednictvím frekvence slova i zájem o frekvenci jednotek menších než slovo, o grafém, foném a slabiku.
s-8 Zájem odborníků z technické oblasti vliv i na samu techniku při shromažďování a zpracovávání statistických dat o slovech i jiných jazykových jednotkách.
s-9 Tím se dostáváme k druhému znaku, kterým se vyznačují práce z druhé, současné etapy vývoje lexikální statistiky, využití moderních technických prostředků, zejména samočinných počítačů.
s-10 Vznikají nové frekvenční slovníky, jejichž autory jsou především lingvisté a matematici.
s-11 Jde tu o novou spolupráci odborníků v oblasti lexikální statistiky, jako ostatně i v jiných oblastech kvantitativní lingvistiky, a to lingvistů, matematiků a techniků.
s-12 Do začátku tohoto období spadá zejména Frekvenční slovník ruštiny a řada frekvenčních slovníků jazyků románských, # publikovaných, # připravovaných, jejichž hlavním autorem je lingvista * Juilland, nový Frekvenční slovník současné americké angličtiny, * Konečný, do jisté míry i Frekvenční slovník slovenštiny, FSS, a připravované další slovníky slovanských jazyků, ruštiny, polštiny.
s-13 Novou, moderní technikou jsou přepracovávány, k dalšímu využití připravovány starší lexikální práce, i pro využití v jiných oblastech kvantitativní lingvistiky.
s-14 Tak k účelům fonologické statistiky upravil a přepracoval * Roberts známý frekvenční slovník Hornův, A Basic Writing Vocabulary z * # .
s-15 Začátek druhé etapy lexikální statistiky zejména u nás našel vhodné podmínky pro další vývoj jednak v tom, že se v rámci kvantitativní lingvistiky, jejíž základ vlastně představuje, stává součástí matematické lingvistiky, která se u nás rozvíjí zejména v oblasti algebraické lingvistiky, jednak v tom, že živý kontakt s většinou pracovníků v oblasti kvantitativní lingvistiky doma i v zahraničí, i když někdy jen prostřednictvím odborné literatury, dává možnost propracovat užité metody a srovnávat výsledky různých lexikálních analýz.
s-16 Je tu řada problémů, na jejichž řešení, dořešení, závisí další úspěšný vývoj lexikální statistiky i kvantitativní lingvistiky vůbec.
s-17 Některým z nich budeme dále věnovat zvláštní pozornost.
s-18 První z nich souvisí s předmětem lingvistiky kvantitativní vůbec a lexikální zvláště.
s-19 Předmět kvantitativní lingvistiky můžeme v hrubých rysech formulovat jako zjišťování kvantitativní stránky jazykových jevů, kvantitativních dat o jazykových jevech a jejich strukturaci v promluvě.
s-20 Pokud jde o jazykové jevy, stačí připomenout známý fakt, že nemáme dosud jednoznačně definovánu většinu z nich, a to základních, jako jsou slovo a věta, ale i jednotky nižší, foném, slabika, morfém.
s-21 Vzhledem k přísným podmínkám pro aplikaci statistických metod a nesnadnému vedení ostré hranice mezi jednotlivými jazykovými jednotkami jsme někdy nuceni pracovat s jednotkami, které se vzhledem k složitosti jazykových jevů týkají jen některých jejich rysů.
s-22 V lexikální statistice se celá tato problematika týká slova jakožto jednotky souboru.
s-23 Jako slovo chápe se tu jednak tvar slova, slovoforma, jednak lexém, lexikální jednotka, též různé slovo.
s-24 V jazycích s bohatou morfologií, jako jsou jazyky slovanské, se tyto dvě podoby slova v lexikální statistice celkem jasně diferencují, v jazycích s morfologií chudou, jako jsou angličtina, němčina, nejsou tyto dvě podoby vždy dostatečně diferencovány.
s-25 * Herdan tu zavedl termíny sémiotické type, token, kterých však užívá ne dost jasně.
s-26 V kvantitativní lingvistice, v lexikální statistice se celkem vytvořil úzus, že se výrazu token užívá pro označení výskytu tvaru slova a type pro označení lexému, lexikální jednotky.
s-27 Někdy se však zejména v strojové lingvistice vzhledem k automatickému zpracování jazykových dat považuje za type suma všech výskytů tvaru slova, token suma všech výskytů knihy k lexému kniha, v němčině suma všech výskytů tvarů des Buches k lexému das Buch.
s-28 Transformace tvarů slov v jejich základní podoby, lexémy, tvar knihy zařadit pod lexém kniha nebo tvar zpívá pod lexém zpívat, stejně v němčině tvar des Buches pod lexém das Buch, er singt pod lexém singen, kterou zatím v úplnosti nikde nezpracovává stroj, nýbrž jen člověk, nazývá se někdy lemmatizací.
s-29 Domnívám se, že v oblasti lexikální statistiky zatím vystačíme s touto terminologií.
s-30 Slovo, tvar slova pro jakoukoli jednotku textu, různý tvar slova, různé tvary slova pro výskyt tvaru slova, knihy, knihou, zpívá, zpíváme, a různé slovo, lexikální jednotka, lexém.
s-31 Při řešení problému slova jako základní jednotky v lexikální statistice k tomu dále záleží jednak na typu jazyka, jednak na účelu, k němuž je daná lexikální analýza určena.
s-32 Speciální zaměření, lexikální analýza k účelům pedagogickým, těsnopiseckým, vyžaduje speciální přístup i k základní jazykové jednotce, slovu, který však nemá být v zásadním rozporu s pojetím lingvistickým.
s-33 Přesto však se domnívám, že v lexikální statistické analýze v rámci jednoho jazyka by se mělo co možná sjednotit chápání slova jakožto základní jednotky lexikální analýzy, aby tu bylo co nejvíce možností srovnávat výsledky různých šetření.
s-34 Neznamená to však, že by se měla podržovat, přejímat řešení pochybná.
s-35 Možností srovnávat se zhodnotí nejen výsledky práce vlastní, ale i práce cizí a vytvářejí se optimální předpoklady pro všestrannou statistickou analýzu a lexikální popis daného jazyka.
s-36 Vytvořením srovnávacích možností do značné míry v jednotném vymezení slova v lexikální analýze příbuzných jazyků připravila by se půda pro srovnávací typologii v oblasti lexikální statistické analýzy u jazyků slovanských.
s-37 V tom bych spatřovala v budoucnosti jeden z hlavních úkolů lexikální statistiky.
s-38 Je pozoruhodné, že se stanovení základní jednotky souboru, která by maximálně vyhovovala požadavkům jak lingvistickým, tak i statistickým, nevěnovala dosud v lexikální statistice ani šíře v oblasti kvantitativní lingvistiky hlubší pozornost.
s-39 Bylo to podle mého názoru jednak proto, že je to problém z hlediska lingvistického sám o sobě složitý, o jehož řešení se lingvistika pokoušela dosud s poměrně malým úspěchem, ale jednak i proto, že se zdá někdy příliš elementárním.
s-40 I když jsou tyto důvody pravdivé, bez maximálně uspokojivého řešení problému, jakým je slovo při lexikální statistické analýze, stavíme na značně nejistých základech.
s-41 Na druhé straně není ovšem možno odsunout práce v lexikální statistice, bude v lingvistice vůbec vyřešena problematika slova.
s-42 Neznamená to ani, že by lexikální statistika, kvantitativní lingvistika sama měla řešit tuto problematiku.
s-43 Avšak před jakoukoli lexikální analýzou je třeba vyrovnat se s daným problémem, poučit se z prací v dané oblasti již existujících a vzhledem k současnému stavu lingvistického bádání a k účelu dané práce zvolit relativně optimální řešení a důsledně je potom v dané práci zachovávat.
s-44 Domnívám se, že vymezení slova z hlediska statistické lexikální analýzy může přispět i k vymezení slova samého.
s-45 Jde tu v podstatě o vymezení slova z hlediska syntagmatického, nalezení vyhovujících měřítek pro zjištění, kde končí slovo jedno a kde začíná slovo druhé, paradigmatického, zejména při lemmatizaci, dále vztahu mezi významem a formou slova vůbec, mezi jazykovými rovinami.
s-46 Druhým problémem lexikální statistické analýzy je způsob výběru jazykových jednotek, slova, a rozsah výběru pro statistické zpracování.
s-47 Ani tomuto problému nebyla dosud věnována soustavná pozornost, řešil se jen případ od případu, ačkoli je to druhý základní problém vedle jednotky souboru, který rozhoduje o výsledcích jakékoli kvantitativní analýzy, počítaje v to samozřejmě i statistiku lexikální.
s-48 Je jasné, že na výběr jazykových jednotek a jeho rozsah značný vliv sám charakter analyzované jednotky v lexikální statistice slova.
s-49 Je jistě rozdíl, počítáme- li jako jednotku výběru slovní tvary, nebo lexémy.
s-50 Při naznačení základní problematiky týkající se slova jakožto jednotky lexikální analýzy byl ponecháván stranou závažný fakt, slovnědruhový charakter slova, který samozřejmě značný vliv nejen na jednoznačné vymezení souboru, ale i na jeho homogennost.
s-51 Při výběru slova jako jednotky lexikální analýzy musíme s ním však počítat, v češtině chápeme jako slovo, tvar slova, jednak tvary slov ohebných substantiv, adjektiv, zájmen, některých číslovek a sloves, jednak slova neohebná, lexémy.
s-52 To platí o adverbiích, předložkách, spojkách, citoslovcích a částicích.
s-53 Oběma těmto skupinám budeme věnovat zvláštní pozornost.
s-54 Kromě těchto diferencí formálních existují mezi danými slovy i rozdíly sémantické.
s-55 I když vzhledem k nesnadnému úkolu sémantické analýzy z hlediska statistického ponecháváme sémantiku jazykové jednotky slova celkem stranou, neobejdeme se bez přihlížení ke dvěma skupinám slov, a to slovům plnovýznamovým, substantiva, adjektiva, zájmena, číslovky, slovesa a adverbia, a slovům gramatickým, formálním, předložky, spojky, citoslovce a částice.
s-56 Přesná delimitace mezi oběma skupinami je nesnadná, někdy se mezi slova formální počítají i zájmena a adverbia zájmenného původu k tomu.
s-57 I v rámci každé z uvedených slovních tříd existují značné rozdíly sémantické.
s-58 Stačí připomenout rozdíl mezi substantivem a slovesem, substantivem a adjektivem, zájmenem a adverbiem.
s-59 Vzhledem k své stránce sémantické i k svému vztahu k jiným druhům slov každé slovo v textu své speciální postavení a přísluší mu jiný podíl na vytváření struktury textu.
s-60 Za dané situace slova by bylo ideální, abychom při lexikální analýze neprováděli výběr, ale pracovali s celou slovní zásobou, se všemi texty daného funkčního stylu, alespoň s celým textem jednoho autora.
s-61 Tento poslední požadavek splňuje ve většině případů FSČ, pracuje většinou s celými texty, z hlediska lexikální statistiky s totálně vyexcerpovanými texty.
s-62 Zpravidla však vzhledem k rozsahu české slovní zásoby, ale i k délce jednotlivých textů nemůžeme pracovat s celým slovním materiálem a musíme pořizovat výběr z něho.
s-63 Někdy však nemůžeme pracovat s celými texty také proto, že obsahují různý počet slov, čili mají různou délku textu, která velký vliv na výskyt a frekvenci některých jazykových jevů, zejména slov.
s-64 Tento faktor je pak třeba eliminovat.
s-65 V těchto a podobných případech provádíme výběr jazykových jednotek, slov, tak, aby získaný soubor byl reprezentativní jak z hlediska statistického, tak i lingvistického.
s-66 Je známo, že statistika disponuje tu řadou metod výběru, je to výběr náhodný, oblastní, mechanický, nebo jiný.
s-67 Z hlediska lingvistického je pro výběr vhodné statistické metody rozhodující, které jednotky, slova, i v které jejich konkrétní reprezentaci daným výběrem postihneme a jaký obraz o textu jako celku tímto způsobem dostaneme, mohli bychom dostat.
s-68 Při lexikální statistice jde nám mimo jiné, alespoň v jisté etapě, o počet různých slov, o slovník textu.
s-69 Vzhledem k tomu, že se tvary ohebných slov vyskytují v textu vedle slov neohebných jako rovnocenná jednotka, musíme při sestavování slovníku tyto jednotky transformovat do jejich základní podoby, tvary substantiv a adjektiv do nominativu, tvary slovesné do infinitivu.
s-70 Zde jsou značné rozdíly nejen u jazyků typologicky odlišných, jako jsou jazyky slovanské, germánské a románské, ale i u jednotlivých druhů slov v jednom jazyce.
s-71 Substantiva v češtině mají vzhledem k své významné frekvenci v nominativu, FSČ, mnohem blíže k základní podobě nominativu než slovesné tvary k infinitivu, který sám patří k relativně velmi málo frekventovaným tvarům, podle FSČ asi # * všech slovesných tvarů.
s-72 V tom je velký rozdíl mezi textem anglickým a českým.
s-73 V anglickém textu je relativně menší rozdíl v počtu tvarů slov a lexémů.
s-74 Výskytem slov v jejich základní podobě, slov neohebných vedle slov ohebných v různé míře vzdálených od jejich základní podoby, zmenšuje se do jisté míry rozdíl mezi textem na rovině tvarů slov a slovníkem textu.
s-75 V češtině v textech uměleckého stylu, prozaických, představuje počet lexémů # * délky, v textech naučného stylu # * , tyto vztahy mezi počtem tvarů slov a počtem lexémů musíme přirozeně brát v úvahu při pořizování jakéhokoli výběru pro potřeby lexikální statistiky.
s-76 Se způsobem výběru materiálu souvisí i rozsah materiálu určeného k lexikální statistické analýze.
s-77 Je jistě rozdíl, opíráme- li se o # slov, nebo o # slov.
s-78 Kdy a jak velký rozsah materiálu pro daný účel lexikální statistické analýzy může stačit, stačí, nebylo zatím stanoveno ani naznačeno.
s-79 To lze ovšem učinit jen do jisté míry, neboť účel statistické analýzy a musí mít vliv na rozsah zkoumaného lexikálního materiálu.
s-80 Volbou vhodného výběru pro účely lexikální statistiky i rozsahem výběru zabývám se podrobněji zde v kapitole * .
s-81 Závažným problémem lexikální statistiky a ovšem i kvantitativní lingvistiky vůbec je přístup ke statistickým datům o jazykových jevech, v našem případě o slovech.
s-82 Za daného stavu jak kvantitativní lingvistiky, tak i lexikální statistiky získáváme stále ještě většinou statistická data základní a nezbytná.
s-83 Je totiž nutné, abychom znali základní statistické údaje o jednotlivých jazykových jevech založené na dostatečně rozsáhlém materiálu, abychom měli možnost rozpoznat zákonitosti, které se projevují právě ve větších souborech.
s-84 Na tomto podkladě je pak možno uplatnit i počet pravděpodobnosti a na základě matematické statistiky vytvářet modely, jimiž se popisují slova a zákonitosti jejich užití, vytvářet celé systémy takových modelů a srovnávat je se skutečností.
s-85 V kvantitativní lingvistice a samozřejmě i v statistice lexikální to znamená, že bychom od statistické analýzy jednotlivých jevů mohli přistoupit k tomu, že bychom mohli sledovat i fungování jazykových jevů v textu, a tudíž nově postihnout i zákonitosti strukturace textu z hlediska lexikálního.
s-86 Matematická statistika nabízí nám řadu metod k srovnávání modelů se skutečností, s daným stavem jazykové jednotky, slova.
s-87 Jde o teorii odhadu a testování hypotéz, na jejichž základě se daný model buď přijímá, nebo zamítá.
s-88 Ovšem ani tyto metody nemohou řešit všechny otázky týkající se dané lexikální problematiky.
s-89 Vzhledem k specifické povaze jazykového materiálu vůbec a slovního zvláště je třeba vytvářet celou hierarchii modelů různých typů.
s-90 Bohatství slovníku snažící se vystihnout složitou otázku struktury slovníku nelze postihnout jedinou formulí, Guirauda, ale celým systémem charakteristik, jak podrobně dále doložím.
s-91 Základní statistické údaje o slovech dostáváme zejména v podobě tabulek a grafů.
s-92 Někdy se pokoušíme vystihnout zjištěné zákonitosti prostřednictvím matematických formulí.
s-93 To však není z hlediska lingvistického cílem, nýbrž jen prostředkem k odhalení nových vlastností jazykové jednotky, slova, k jejímu výkladu.
s-94 Z hlediska lingvistického pokládáme však za nezbytné jak v oblasti kvantitativní lingvistiky vůbec, tak i lexikální statistiky, - li tu aplikace statistických metod znamenat opravdový přínos i pro lingvistiku, podávat lingvistickou interpretaci statistických dat, formulí.
s-95 Je pochopitelné, že se velmi často při tom ukazují meze užitých metod, s nimiž přirozeně musíme počítat, potřeba znát i další údaje o témž jevu i ve vztahu k jinému jazykovému jevu, které bychom si bez lingvistického výkladu statistických dat a formulí ani neuvědomovali.
s-96 Právě v lingvistické interpretaci statistických dat spatřuji největší přínos statistických metod pro lingvistiku vůbec.
s-97 Z hlediska lexikální statistiky pokládám za nezbytné sledovat nejen obecně slovo, jde o tvar slova nebo o lexém, nejen slova formální a plnovýznamová, nýbrž i jejich slovnědruhový charakter.
s-98 Ten nám může do jisté míry podat základní sémantické charakteristiky slova, zvláště to platí o substantivech a slovesech a o jejich souputnících, * jsou adjektiva ve vztahu k substantivům a adverbia ve vztahu k slovesům.
s-99 Zvláště to význam dotud, pokud vzhledem k složitosti sémantické problematiky vůbec a při aplikaci statistických metod zvláště stojíme na prahu i studia sémantického.
s-100 Ve velmi jednoduché formě se o sémantickou kvantifikaci pokouším i v statistické analýze jednotlivých druhů slov, viz * .

Text viewDownload CoNNL-U