A Roadmap for Universal Syllabic Segmentation
Zpravodaj Československého sdružení uživatelů TeXu, Tome 33 (2023) no. 3-4, pp. 125-138.

Voir la notice de l'article provenant de la source Czech Digital Mathematics Library

Prostorově a časově efektivní segmentace (dělení slov) přirozených jazyků zůstává jádrem každého sázecího systému, ať už jde o TeX, webový prohlížeč nebo mobilní operační systém. Ve většině jazyků je dnes pragmaticky preferováno slabičné dělení reflektující výslovnost při čtení. Vzhledem k tomu, že přepínání jazyků často není v textech označeno, renderovací stroj (webový prohlížeč či TeX) potřebuje univerzální slabikovou segmentaci. V předloženém článku ukazujeme proveditelnost této myšlenky tím, že nabízíme prototypové řešení dvou hlavních problémů: A) použití Patgenu ke generování vzorů pro několik jazyků najednou; a B) neexistence podpory Unicode v nástrojích jako Patgen nebo TeX (vzory v kódování UTF-16). Pro A) jsme ke generování univerzálních slabičných vzorů použili seznamy slov devíti slabičných jazyků (čeština, slovenština, gruzínština, řečtina, polština, ruština, turečtina, turkmenština a ukrajinština). Pro B) jsme vytvořili verzi Patgen, která používá datovou strukturu Judy array, a porovnali její efektivitu s implementací trie. S údaji z těchto devíti jazyků ukazujeme, že: A) vyvinutí univerzálních, obecných slabičných vzorů s vysokým pokrytím je možné, a to s velkým dopadem na prakticky všechny sázecí stroje včetně webových prohlížečů; a B) podpora Unicode znaků ve vzorech dělení slov v programech TeX a Patgen je možná pomocí Judy array.
@article{10_5300_2023_3_4_125,
     author = {Sojka, Ond\v{r}ej and Sojka, Petr and M\'aca, Jakub},
     title = {A {Roadmap} for {Universal} {Syllabic} {Segmentation}},
     journal = {Zpravodaj \v{C}eskoslovensk\'eho sdru\v{z}en{\'\i} u\v{z}ivatel\r{u} TeXu},
     pages = {125--138},
     publisher = {mathdoc},
     volume = {33},
     number = {3-4},
     year = {2023},
     doi = {10.5300/2023-3-4/125},
     language = {en},
     url = {http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/}
}
TY  - JOUR
AU  - Sojka, Ondřej
AU  - Sojka, Petr
AU  - Máca, Jakub
TI  - A Roadmap for Universal Syllabic Segmentation
JO  - Zpravodaj Československého sdružení uživatelů TeXu
PY  - 2023
SP  - 125
EP  - 138
VL  - 33
IS  - 3-4
PB  - mathdoc
UR  - http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/
DO  - 10.5300/2023-3-4/125
LA  - en
ID  - 10_5300_2023_3_4_125
ER  - 
%0 Journal Article
%A Sojka, Ondřej
%A Sojka, Petr
%A Máca, Jakub
%T A Roadmap for Universal Syllabic Segmentation
%J Zpravodaj Československého sdružení uživatelů TeXu
%D 2023
%P 125-138
%V 33
%N 3-4
%I mathdoc
%U http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/
%R 10.5300/2023-3-4/125
%G en
%F 10_5300_2023_3_4_125
Sojka, Ondřej; Sojka, Petr; Máca, Jakub. A Roadmap for Universal Syllabic Segmentation. Zpravodaj Československého sdružení uživatelů TeXu, Tome 33 (2023) no. 3-4, pp. 125-138. doi : 10.5300/2023-3-4/125. http://geodesic.mathdoc.fr/articles/10.5300/2023-3-4/125/

Cité par Sources :