A Roadmap for Universal Syllabic Segmentation
Zpravodaj Československého sdružení uživatelů TeXu, Tome 33 (2023) no. 3-4, pp. 125-138
Voir la notice de l'article provenant de la source Czech Digital Mathematics Library
Prostorově a časově efektivní segmentace (dělení slov) přirozených jazyků zůstává jádrem každého sázecího systému, ať už jde o TeX, webový prohlížeč nebo mobilní operační systém. Ve většině jazyků je dnes pragmaticky preferováno slabičné dělení reflektující výslovnost při čtení. Vzhledem k tomu, že přepínání jazyků často není v textech označeno, renderovací stroj (webový prohlížeč či TeX) potřebuje univerzální slabikovou segmentaci. V předloženém článku ukazujeme proveditelnost této myšlenky tím, že nabízíme prototypové řešení dvou hlavních problémů: A) použití Patgenu ke generování vzorů pro několik jazyků najednou; a B) neexistence podpory Unicode v nástrojích jako Patgen nebo TeX (vzory v kódování UTF-16). Pro A) jsme ke generování univerzálních slabičných vzorů použili seznamy slov devíti slabičných jazyků (čeština, slovenština, gruzínština, řečtina, polština, ruština, turečtina, turkmenština a ukrajinština). Pro B) jsme vytvořili verzi Patgen, která používá datovou strukturu Judy array, a porovnali její efektivitu s implementací trie. S údaji z těchto devíti jazyků ukazujeme, že: A) vyvinutí univerzálních, obecných slabičných vzorů s vysokým pokrytím je možné, a to s velkým dopadem na prakticky všechny sázecí stroje včetně webových prohlížečů; a B) podpora Unicode znaků ve vzorech dělení slov v programech TeX a Patgen je možná pomocí Judy array.
@article{10_5300_2023_3_4_125,
author = {Sojka, Ond\v{r}ej and Sojka, Petr and M\'aca, Jakub},
title = {A {Roadmap} for {Universal} {Syllabic} {Segmentation}},
journal = {Zpravodaj \v{C}eskoslovensk\'eho sdru\v{z}en{\'\i} u\v{z}ivatel\r{u} TeXu},
pages = {125--138},
publisher = {mathdoc},
volume = {33},
number = {3-4},
year = {2023},
doi = {10.5300/2023-3-4/125},
language = {en},
url = {http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/}
}
TY - JOUR AU - Sojka, Ondřej AU - Sojka, Petr AU - Máca, Jakub TI - A Roadmap for Universal Syllabic Segmentation JO - Zpravodaj Československého sdružení uživatelů TeXu PY - 2023 SP - 125 EP - 138 VL - 33 IS - 3-4 PB - mathdoc UR - http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/ DO - 10.5300/2023-3-4/125 LA - en ID - 10_5300_2023_3_4_125 ER -
%0 Journal Article %A Sojka, Ondřej %A Sojka, Petr %A Máca, Jakub %T A Roadmap for Universal Syllabic Segmentation %J Zpravodaj Československého sdružení uživatelů TeXu %D 2023 %P 125-138 %V 33 %N 3-4 %I mathdoc %U http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/ %R 10.5300/2023-3-4/125 %G en %F 10_5300_2023_3_4_125
Sojka, Ondřej; Sojka, Petr; Máca, Jakub. A Roadmap for Universal Syllabic Segmentation. Zpravodaj Československého sdružení uživatelů TeXu, Tome 33 (2023) no. 3-4, pp. 125-138. doi: 10.5300/2023-3-4/125
Cité par Sources :