Slovenské vzory dělení slov: čas pro změnu?
Zpravodaj Československého sdružení uživatelů TeXu, Tome 14 (2004) no. 3-4, pp. 183-189
Voir la notice de l'article provenant de la source Czech Digital Mathematics Library
Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v distribucích TeXu, ale i v dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších "segmentačních" aplikací.
Mots-clés :
dělení slov; segmentace; PatGen; přebíjející vzory; bootstarpping; stratifikace
@article{10_5300_2004_3_4_183,
author = {Sojka, Petr},
title = {Slovensk\'e vzory d\v{e}len{\'\i} slov: \v{c}as pro zm\v{e}nu?},
journal = {Zpravodaj \v{C}eskoslovensk\'eho sdru\v{z}en{\'\i} u\v{z}ivatel\r{u} TeXu},
pages = {183--189},
publisher = {mathdoc},
volume = {14},
number = {3-4},
year = {2004},
doi = {10.5300/2004-3-4/183},
language = {cz},
url = {http://geodesic.mathdoc.fr/articles/10.5300/2004-3-4/183/}
}
TY - JOUR AU - Sojka, Petr TI - Slovenské vzory dělení slov: čas pro změnu? JO - Zpravodaj Československého sdružení uživatelů TeXu PY - 2004 SP - 183 EP - 189 VL - 14 IS - 3-4 PB - mathdoc UR - http://geodesic.mathdoc.fr/articles/10.5300/2004-3-4/183/ DO - 10.5300/2004-3-4/183 LA - cz ID - 10_5300_2004_3_4_183 ER -
Sojka, Petr. Slovenské vzory dělení slov: čas pro změnu?. Zpravodaj Československého sdružení uživatelů TeXu, Tome 14 (2004) no. 3-4, pp. 183-189. doi: 10.5300/2004-3-4/183
Cité par Sources :