Dependency Tree

Universal Dependencies - Czech - CAC

Language	Czech
Project	CAC
Corpus Part	train
Annotation	Hladká, Barbora; Zeman, Daniel

Select a sentence

Showing 1 - 100 of 121 • previous • next

s-1	* přípravy, jejich společným znakem je, že byly vypracovány ručně.
s-2	FSČ stojí na rozhraní této první etapy vývoje lexikální statistiky a etapy druhé, která začíná zhruba od šedesátých let tohoto století a od etapy předcházející se odlišuje zejména těmito dvěma základními rysy.
s-3	~~O problematiku lexikální statistiky, o statistický výzkum slovní zásoby, se zajímají především lingvisté, a to ve spolupráci s matematiky.~~
s-4	V lingvistice dochází totiž uznání požadavek, že k úplnému popisu jakýchkoli jazykových jevů a k postižení zákonitostí v jejich fungování je nutno zachytit vedle charakteristik kvalitativních charakteristiky kvantitativní.
s-5	~~Ve své dialektické jednotě se navzájem předpokládají a doplňují.~~
s-6	Vedle lingvistů a těch odborníků, kteří se o frekvenci slov již tradičně zajímali, pedagogů, psychologů a těsnopisců, začínají se zejména v období studia teorie informace a také její aplikace na rozmanité obory, a to i na jazykovědu, zajímat o lexikální statistiku i pracovníci z oblasti telekomunikace, akustiky, automatického referování.
s-7	~~V oblasti technické rozvíjí se prostřednictvím frekvence slova i zájem o frekvenci jednotek menších než slovo, o grafém, foném a slabiku.~~
s-8	~~Zájem odborníků z technické oblasti má vliv i na samu techniku při shromažďování a zpracovávání statistických dat o slovech i jiných jazykových jednotkách.~~
s-9	Tím se dostáváme k druhému znaku, kterým se vyznačují práce z druhé, současné etapy vývoje lexikální statistiky, využití moderních technických prostředků, zejména samočinných počítačů.
s-10	~~Vznikají nové frekvenční slovníky, jejichž autory jsou především lingvisté a matematici.~~
s-11	~~Jde tu o novou spolupráci odborníků v oblasti lexikální statistiky, jako ostatně i v jiných oblastech kvantitativní lingvistiky, a to lingvistů, matematiků a techniků.~~
s-12	Do začátku tohoto období spadá zejména Frekvenční slovník ruštiny a řada frekvenčních slovníků jazyků románských, # publikovaných, # připravovaných, jejichž hlavním autorem je lingvista * Juilland, nový Frekvenční slovník současné americké angličtiny, * Konečný, do jisté míry i Frekvenční slovník slovenštiny, FSS, a připravované další slovníky slovanských jazyků, ruštiny, polštiny.
s-13	~~Novou, moderní technikou jsou přepracovávány, k dalšímu využití připravovány starší lexikální práce, i pro využití v jiných oblastech kvantitativní lingvistiky.~~
s-14	~~Tak k účelům fonologické statistiky upravil a přepracoval * Roberts známý frekvenční slovník Hornův, A Basic Writing Vocabulary z * # .~~
s-15	Začátek druhé etapy lexikální statistiky zejména u nás našel vhodné podmínky pro další vývoj jednak v tom, že se v rámci kvantitativní lingvistiky, jejíž základ vlastně představuje, stává součástí matematické lingvistiky, která se u nás rozvíjí zejména v oblasti algebraické lingvistiky, jednak v tom, že živý kontakt s většinou pracovníků v oblasti kvantitativní lingvistiky doma i v zahraničí, i když někdy jen prostřednictvím odborné literatury, dává možnost propracovat užité metody a srovnávat výsledky různých lexikálních analýz.
s-16	~~Je tu řada problémů, na jejichž řešení, dořešení, závisí další úspěšný vývoj lexikální statistiky i kvantitativní lingvistiky vůbec.~~
s-17	~~Některým z nich budeme dále věnovat zvláštní pozornost.~~
s-18	~~První z nich souvisí s předmětem lingvistiky kvantitativní vůbec a lexikální zvláště.~~
s-19	Předmět kvantitativní lingvistiky můžeme v hrubých rysech formulovat jako zjišťování kvantitativní stránky jazykových jevů, kvantitativních dat o jazykových jevech a jejich strukturaci v promluvě.
s-20	Pokud jde o jazykové jevy, stačí připomenout známý fakt, že nemáme dosud jednoznačně definovánu většinu z nich, a to základních, jako jsou slovo a věta, ale i jednotky nižší, foném, slabika, morfém.
s-21	Vzhledem k přísným podmínkám pro aplikaci statistických metod a nesnadnému vedení ostré hranice mezi jednotlivými jazykovými jednotkami jsme někdy nuceni pracovat s jednotkami, které se vzhledem k složitosti jazykových jevů týkají jen některých jejich rysů.
s-22	~~V lexikální statistice se celá tato problematika týká slova jakožto jednotky souboru.~~
s-23	~~Jako slovo chápe se tu jednak tvar slova, slovoforma, jednak lexém, lexikální jednotka, též různé slovo.~~
s-24	V jazycích s bohatou morfologií, jako jsou jazyky slovanské, se tyto dvě podoby slova v lexikální statistice celkem jasně diferencují, v jazycích s morfologií chudou, jako jsou angličtina, němčina, nejsou tyto dvě podoby vždy dostatečně diferencovány.
s-25	* Herdan tu zavedl termíny sémiotické type, token, kterých však užívá ne dost jasně.
s-26	~~V kvantitativní lingvistice, v lexikální statistice se celkem vytvořil úzus, že se výrazu token užívá pro označení výskytu tvaru slova a type pro označení lexému, lexikální jednotky.~~
s-27	Někdy se však zejména v strojové lingvistice vzhledem k automatickému zpracování jazykových dat považuje za type suma všech výskytů tvaru slova, token suma všech výskytů knihy k lexému kniha, v němčině suma všech výskytů tvarů des Buches k lexému das Buch.
s-28	Transformace tvarů slov v jejich základní podoby, lexémy, tvar knihy zařadit pod lexém kniha nebo tvar zpívá pod lexém zpívat, stejně v němčině tvar des Buches pod lexém das Buch, er singt pod lexém singen, kterou zatím v úplnosti nikde nezpracovává stroj, nýbrž jen člověk, nazývá se někdy lemmatizací.
s-29	~~Domnívám se, že v oblasti lexikální statistiky zatím vystačíme s touto terminologií.~~
s-30	~~Slovo, tvar slova pro jakoukoli jednotku textu, různý tvar slova, různé tvary slova pro výskyt tvaru slova, knihy, knihou, zpívá, zpíváme, a různé slovo, lexikální jednotka, lexém.~~
s-31	~~Při řešení problému slova jako základní jednotky v lexikální statistice k tomu dále záleží jednak na typu jazyka, jednak na účelu, k němuž je daná lexikální analýza určena.~~
s-32	Speciální zaměření, lexikální analýza k účelům pedagogickým, těsnopiseckým, vyžaduje speciální přístup i k základní jazykové jednotce, slovu, který však nemá být v zásadním rozporu s pojetím lingvistickým.
s-33	Přesto však se domnívám, že v lexikální statistické analýze v rámci jednoho jazyka by se mělo co možná sjednotit chápání slova jakožto základní jednotky lexikální analýzy, aby tu bylo co nejvíce možností srovnávat výsledky různých šetření.
s-34	~~Neznamená to však, že by se měla podržovat, přejímat řešení pochybná.~~
s-35	Možností srovnávat se zhodnotí nejen výsledky práce vlastní, ale i práce cizí a vytvářejí se optimální předpoklady pro všestrannou statistickou analýzu a lexikální popis daného jazyka.
s-36	Vytvořením srovnávacích možností do značné míry v jednotném vymezení slova v lexikální analýze příbuzných jazyků připravila by se půda pro srovnávací typologii v oblasti lexikální statistické analýzy u jazyků slovanských.
s-37	~~V tom bych spatřovala v budoucnosti jeden z hlavních úkolů lexikální statistiky.~~
s-38	Je pozoruhodné, že se stanovení základní jednotky souboru, která by maximálně vyhovovala požadavkům jak lingvistickým, tak i statistickým, nevěnovala dosud v lexikální statistice ani šíře v oblasti kvantitativní lingvistiky hlubší pozornost.
s-39	Bylo to podle mého názoru jednak proto, že je to problém z hlediska lingvistického sám o sobě složitý, o jehož řešení se lingvistika pokoušela až dosud s poměrně malým úspěchem, ale jednak i proto, že se zdá někdy příliš elementárním.
s-40	~~I když jsou tyto důvody pravdivé, bez maximálně uspokojivého řešení problému, jakým je slovo při lexikální statistické analýze, stavíme na značně nejistých základech.~~
s-41	~~Na druhé straně není ovšem možno odsunout práce v lexikální statistice, až bude v lingvistice vůbec vyřešena problematika slova.~~
s-42	~~Neznamená to ani, že by lexikální statistika, kvantitativní lingvistika sama měla řešit tuto problematiku.~~
s-43	Avšak před jakoukoli lexikální analýzou je třeba vyrovnat se s daným problémem, poučit se z prací v dané oblasti již existujících a vzhledem k současnému stavu lingvistického bádání a k účelu dané práce zvolit relativně optimální řešení a důsledně je potom v dané práci zachovávat.
s-44	~~Domnívám se, že vymezení slova z hlediska statistické lexikální analýzy může přispět i k vymezení slova samého.~~
s-45	Jde tu v podstatě o vymezení slova z hlediska syntagmatického, nalezení vyhovujících měřítek pro zjištění, kde končí slovo jedno a kde začíná slovo druhé, paradigmatického, zejména při lemmatizaci, dále vztahu mezi významem a formou slova vůbec, mezi jazykovými rovinami.
s-46	~~Druhým problémem lexikální statistické analýzy je způsob výběru jazykových jednotek, slova, a rozsah výběru pro statistické zpracování.~~
s-47	Ani tomuto problému nebyla dosud věnována soustavná pozornost, řešil se jen případ od případu, ačkoli je to druhý základní problém vedle jednotky souboru, který rozhoduje o výsledcích jakékoli kvantitativní analýzy, počítaje v to samozřejmě i statistiku lexikální.
s-48	~~Je jasné, že na výběr jazykových jednotek a jeho rozsah má značný vliv sám charakter analyzované jednotky v lexikální statistice slova.~~
s-49	~~Je jistě rozdíl, počítáme- li jako jednotku výběru slovní tvary, nebo lexémy.~~
s-50	Při naznačení základní problematiky týkající se slova jakožto jednotky lexikální analýzy byl ponecháván stranou závažný fakt, slovnědruhový charakter slova, který má samozřejmě značný vliv nejen na jednoznačné vymezení souboru, ale i na jeho homogennost.
s-51	Při výběru slova jako jednotky lexikální analýzy musíme s ním však počítat, v češtině chápeme jako slovo, tvar slova, jednak tvary slov ohebných substantiv, adjektiv, zájmen, některých číslovek a sloves, jednak slova neohebná, lexémy.
s-52	~~To platí o adverbiích, předložkách, spojkách, citoslovcích a částicích.~~
s-53	~~Oběma těmto skupinám budeme věnovat zvláštní pozornost.~~
s-54	~~Kromě těchto diferencí formálních existují mezi danými slovy i rozdíly sémantické.~~
s-55	I když vzhledem k nesnadnému úkolu sémantické analýzy z hlediska statistického ponecháváme sémantiku jazykové jednotky slova celkem stranou, neobejdeme se bez přihlížení ke dvěma skupinám slov, a to slovům plnovýznamovým, substantiva, adjektiva, zájmena, číslovky, slovesa a adverbia, a slovům gramatickým, formálním, předložky, spojky, citoslovce a částice.
s-56	~~Přesná delimitace mezi oběma skupinami je nesnadná, někdy se mezi slova formální počítají i zájmena a adverbia zájmenného původu k tomu.~~
s-57	~~I v rámci každé z uvedených slovních tříd existují značné rozdíly sémantické.~~
s-58	~~Stačí připomenout rozdíl mezi substantivem a slovesem, substantivem a adjektivem, zájmenem a adverbiem.~~
s-59	~~Vzhledem k své stránce sémantické i k svému vztahu k jiným druhům slov má každé slovo v textu své speciální postavení a přísluší mu jiný podíl na vytváření struktury textu.~~
s-60	Za dané situace slova by bylo ideální, abychom při lexikální analýze neprováděli výběr, ale pracovali s celou slovní zásobou, se všemi texty daného funkčního stylu, alespoň s celým textem jednoho autora.
s-61	~~Tento poslední požadavek splňuje ve většině případů FSČ, pracuje většinou s celými texty, z hlediska lexikální statistiky s totálně vyexcerpovanými texty.~~
s-62	~~Zpravidla však vzhledem k rozsahu české slovní zásoby, ale i k délce jednotlivých textů nemůžeme pracovat s celým slovním materiálem a musíme pořizovat výběr z něho.~~
s-63	Někdy však nemůžeme pracovat s celými texty také proto, že obsahují různý počet slov, čili mají různou délku textu, která má velký vliv na výskyt a frekvenci některých jazykových jevů, zejména slov.
s-64	~~Tento faktor je pak třeba eliminovat.~~
s-65	~~V těchto a podobných případech provádíme výběr jazykových jednotek, slov, tak, aby získaný soubor byl reprezentativní jak z hlediska statistického, tak i lingvistického.~~
s-66	~~Je známo, že statistika disponuje tu řadou metod výběru, ať už je to výběr náhodný, oblastní, mechanický, nebo jiný.~~
s-67	Z hlediska lingvistického je pro výběr vhodné statistické metody rozhodující, které jednotky, slova, i v které jejich konkrétní reprezentaci daným výběrem postihneme a jaký obraz o textu jako celku tímto způsobem dostaneme, mohli bychom dostat.
s-68	~~Při lexikální statistice jde nám mimo jiné, alespoň v jisté etapě, o počet různých slov, o slovník textu.~~
s-69	Vzhledem k tomu, že se tvary ohebných slov vyskytují v textu vedle slov neohebných jako rovnocenná jednotka, musíme při sestavování slovníku tyto jednotky transformovat do jejich základní podoby, tvary substantiv a adjektiv do nominativu, tvary slovesné do infinitivu.
s-70	~~Zde jsou značné rozdíly nejen u jazyků typologicky odlišných, jako jsou jazyky slovanské, germánské a románské, ale i u jednotlivých druhů slov v jednom jazyce.~~
s-71	Substantiva v češtině mají vzhledem k své významné frekvenci v nominativu, FSČ, mnohem blíže k základní podobě nominativu než slovesné tvary k infinitivu, který sám patří k relativně velmi málo frekventovaným tvarům, podle FSČ asi # * všech slovesných tvarů.
s-72	~~V tom je velký rozdíl mezi textem anglickým a českým.~~
s-73	~~V anglickém textu je relativně menší rozdíl v počtu tvarů slov a lexémů.~~
s-74	Výskytem slov v jejich základní podobě, slov neohebných vedle slov ohebných v různé míře vzdálených od jejich základní podoby, zmenšuje se do jisté míry rozdíl mezi textem na rovině tvarů slov a slovníkem textu.
s-75	V češtině v textech uměleckého stylu, prozaických, představuje počet lexémů # * délky, v textech naučného stylu # * , tyto vztahy mezi počtem tvarů slov a počtem lexémů musíme přirozeně brát v úvahu při pořizování jakéhokoli výběru pro potřeby lexikální statistiky.
s-76	~~Se způsobem výběru materiálu souvisí i rozsah materiálu určeného k lexikální statistické analýze.~~
s-77	~~Je jistě rozdíl, opíráme- li se o # slov, nebo o # slov.~~
s-78	~~Kdy a jak velký rozsah materiálu pro daný účel lexikální statistické analýzy může stačit, stačí, nebylo zatím stanoveno ani naznačeno.~~
s-79	~~To lze ovšem učinit jen do jisté míry, neboť účel statistické analýzy má a musí mít vliv na rozsah zkoumaného lexikálního materiálu.~~
s-80	~~Volbou vhodného výběru pro účely lexikální statistiky i rozsahem výběru zabývám se podrobněji zde v kapitole * .~~
s-81	~~Závažným problémem lexikální statistiky a ovšem i kvantitativní lingvistiky vůbec je přístup ke statistickým datům o jazykových jevech, v našem případě o slovech.~~
s-82	~~Za daného stavu jak kvantitativní lingvistiky, tak i lexikální statistiky získáváme stále ještě většinou statistická data základní a nezbytná.~~
s-83	Je totiž nutné, abychom znali základní statistické údaje o jednotlivých jazykových jevech založené na dostatečně rozsáhlém materiálu, abychom měli možnost rozpoznat zákonitosti, které se projevují právě ve větších souborech.
s-84	Na tomto podkladě je pak možno uplatnit i počet pravděpodobnosti a na základě matematické statistiky vytvářet modely, jimiž se popisují slova a zákonitosti jejich užití, vytvářet celé systémy takových modelů a srovnávat je se skutečností.
s-85	V kvantitativní lingvistice a samozřejmě i v statistice lexikální to znamená, že bychom od statistické analýzy jednotlivých jevů mohli přistoupit k tomu, že bychom mohli sledovat i fungování jazykových jevů v textu, a tudíž nově postihnout i zákonitosti strukturace textu z hlediska lexikálního.
s-86	~~Matematická statistika nabízí nám řadu metod k srovnávání modelů se skutečností, s daným stavem jazykové jednotky, slova.~~
s-87	~~Jde o teorii odhadu a testování hypotéz, na jejichž základě se daný model buď přijímá, nebo zamítá.~~
s-88	~~Ovšem ani tyto metody nemohou řešit všechny otázky týkající se dané lexikální problematiky.~~
s-89	~~Vzhledem k specifické povaze jazykového materiálu vůbec a slovního zvláště je třeba vytvářet celou hierarchii modelů různých typů.~~
s-90	~~Bohatství slovníku snažící se vystihnout složitou otázku struktury slovníku nelze postihnout jedinou formulí, Guirauda, ale celým systémem charakteristik, jak podrobně dále doložím.~~
s-91	~~Základní statistické údaje o slovech dostáváme zejména v podobě tabulek a grafů.~~
s-92	~~Někdy se pokoušíme vystihnout zjištěné zákonitosti prostřednictvím matematických formulí.~~
s-93	~~To však není z hlediska lingvistického cílem, nýbrž jen prostředkem k odhalení nových vlastností jazykové jednotky, slova, k jejímu výkladu.~~
s-94	Z hlediska lingvistického pokládáme však za nezbytné jak v oblasti kvantitativní lingvistiky vůbec, tak i lexikální statistiky, má- li tu aplikace statistických metod znamenat opravdový přínos i pro lingvistiku, podávat lingvistickou interpretaci statistických dat, formulí.
s-95	Je pochopitelné, že se velmi často při tom ukazují meze užitých metod, s nimiž přirozeně musíme počítat, potřeba znát i další údaje o témž jevu i ve vztahu k jinému jazykovému jevu, které bychom si bez lingvistického výkladu statistických dat a formulí ani neuvědomovali.
s-96	~~Právě v lingvistické interpretaci statistických dat spatřuji největší přínos statistických metod pro lingvistiku vůbec.~~
s-97	Z hlediska lexikální statistiky pokládám za nezbytné sledovat nejen obecně slovo, ať už jde o tvar slova nebo o lexém, nejen slova formální a plnovýznamová, nýbrž i jejich slovnědruhový charakter.
s-98	Ten nám může do jisté míry podat základní sémantické charakteristiky slova, zvláště to platí o substantivech a slovesech a o jejich souputnících, * jsou adjektiva ve vztahu k substantivům a adverbia ve vztahu k slovesům.
s-99	~~Zvláště to má význam dotud, pokud vzhledem k složitosti sémantické problematiky vůbec a při aplikaci statistických metod zvláště stojíme na prahu i studia sémantického.~~
s-100	~~Ve velmi jednoduché formě se o sémantickou kvantifikaci pokouším i v statistické analýze jednotlivých druhů slov, viz * .~~

Text view • Download CoNNL-U