SiHanKu
Ako používať korpus
Hľadať v korpuse začnite kliknutím na "Nové hľadanie". Pri práci s korpusom odporúčame používať prehliadač Firefox, Chrome, Chromium.
Viac o vyhľadávaní v korpuse pozri SNK.
Ako pripraviť texty do korpusu
Texty do korpusu sa pripravujú v jednoduchom textovom editore (napr. pre Linux Gedit, pre Windows Notepad++, pre OSX Textedit a pod.) samostatne pre každý jazyk, t. j. jeden súbor pre čínštinu a jeden pre slovenčinu. Oba súbory majú príponu .txt, kódovanie UTF8.
V texte sa nepoužíva žiadne formátovanie, vety začínajú na začiatku riadku a končia väčšinou interpunkciou. Poradie viet musí byť v oboch súboroch identické, t. j. tretia veta v slovenskom súbore musí zodpovedať tretej vete v čínskom súbore, počet viet musí byť identický.
Pozri obrázok (kliknutím zväčši):
Značky anotácií textov SHK:
Bibliografická anotácia
názov | kľúč | hodnota |
---|---|---|
pôvodný jazyk | origlang | zh, sk |
názov sk | namesk | |
názov zh | namezh | |
varieta | zhvariety | falv, wenxue, zhuanye, baokan |
Štýlovo-žánrová anotácia
štýl, žáner | označenie |
---|---|
publicistický text | baokan |
umelecký text | wenxue |
právny text (fanti) | falu |
právny text (jianti) | falv |
odborný text | zhuanye |
Morfologická anotácia (tagset)
slovný druh (POS) | 词类 | tag |
---|---|---|
abstraktum | 抽象名词 | an |
adjektívum | 形容词 | a |
adverbium | 副词 | d |
frazéma | 习语 | i |
interjekcia | 叹词 | e |
interpunkcia - bodka, bodkočiarka | 句号 | ew |
klasifikátor | 量词 | q |
konjunkcia | 连词 | c |
mená miesta | 处所词 | s |
mená pozície | 方位词 | f |
modálna partikula | 语词助词 | y |
numerále | 数词 | m |
onomatopoja | 象声词 | o |
partikula, tzv. pomocné slovo | 助词 | u |
prefix fei | 词头 | h |
prepozícia | 介词 | p |
pronominum | 代词 | r |
substantívum | 名词 | n |
substantívum času | 时间名词 | ng |
sufix - substantívny | 词尾 | k |
tranzitívum | 及物动词 | vn |
úvodzovky, čiarka | 逗号 | w |
verbum | 动词 | v |
chyba | x |