Mot quasi-périodique
En combinatoire, et plus particuliĂšrement en combinatoire des mots, un mot quasi-pĂ©riodique est un mot fini ou infini qui peut ĂȘtre construit par concatĂ©nations ou superpositions d'un de ses facteurs propres. La notion de mot quasi-pĂ©riodique gĂ©nĂ©ralise celle de mot pĂ©riodique.
Motivation
Les rĂ©gularitĂ©s dans les chaĂźnes de caractĂšres sont Ă©tudiĂ©es dans divers domaines scientifiques, comme la combinatoire, le codage et la compression, la thĂ©orie des automates, la biologie molĂ©culaire, les langages formels, la thĂ©orie des systĂšmes. Une structure typique de rĂ©gularitĂ© est la rĂ©pĂ©tition dans une mot ; la pĂ©riode d'un mot rend compte de la nature rĂ©pĂ©titive d'un mot , puisque est construit par la concatĂ©nation de copies du mot . On gĂ©nĂ©ralise cette notion en permettant de chevauchement entre des occurrences du segment rĂ©pĂ©tĂ©. Une quasi-pĂ©riode d'un mot est une facteur propre de tel que peut ĂȘtre construit Ă partir d'instances Ă©ventuellement chevauchantes de .
DĂ©finitions
Un mot est est pĂ©riodique s'il existe un entier , avec tel que pour ; le plus petit entier avec cette propriĂ©tĂ© est la pĂ©riode minimale, ou la pĂ©riode tout court ; un facteur de longueur est un motif pĂ©riodique, appelĂ© aussi lui-mĂȘme une pĂ©riode du mot. Par exemple, le mot est pĂ©riodique de pĂ©riode 3.
Si et sont deux mots, alors le mot est une superposition de et . On est intĂ©ressĂ© par des superpositions d'un mĂȘme facteur dans un mot : si , le mot peut ĂȘtre vu comme le produit du prĂ©fixe de par le mot lui-mĂȘme, ou comme produit de par le suffixe de . Ainsi pour , le mot s'Ă©crit .
Couverture alignée
Ătant donnĂ© un mot , un facteur de tel que peut ĂȘtre construit par concatĂ©nation et superpositions de fournit une couverture alignĂ©e de [1]. Le mot est lui-mĂȘme appelĂ© un mot couvrant, ou germe (seed en anglais), le mot couvrant le plus court est appelĂ© la quasi-pĂ©riode, et le mot est quasi-pĂ©riodique.
Dans cette définition, le mot est à la fois préfixe et suffixe de . Par exemple, le mot est quasi-périodique de mot couvrant : . Dans cette écriture, on factorise le mot en préfixes du mot couvrant. La factorisation commence et finit par le mot couvrant tout entier : ainsi la factorisation est « alignée » sur les extrémités du mot, ce qui justifie la terminologie. Un mot est super-primitif s'il ne possÚde pas de couverture alignée.
Pour le mot , les plus petits mots quasi-périodiques de période sont :
,
,
,
,
.
Le mot ne figure pas dans cette liste parce qu'il ne finit pas par .
Un algorithme linéaire du calcul du mot couvrant le plus court est donné par Apostolico, Farach et Iliopoulos[2]. Un algorithme de calcul en ligne est de Dany Breslauer[3]. Apostolico et Ehrenfeucht[4] considÚrent le calcul du plus long mot ouvrant ; ils décrivent un algorithme en pour calculer tous les mots couvrants maximaux d'un mot de longueur .
Couverture
La dĂ©finition ci-dessus fait qu'un mot qui est pĂ©riodique n'a pas toujours une couverture alignĂ©e de mĂȘme pĂ©riode. Par exemple, le mot est pĂ©riodique de pĂ©riode 3 et est quasi-pĂ©riodique de germe ; de mĂȘme est quasi-pĂ©riodique de pĂ©riode : , mais a pĂ©riode minimale 3.
C'est pourquoi on considÚre une notion plus générale : une couverture de est une couverture alignée d'un sur-mot (superstring) de , c'est-à -dire d'un mot qui a en facteur. Par exemple, est un germe de . Le mot est un germe (seed) de . Un germe de longueur minimale n'est pas forcément unique ; ainsi a les deux germes et . Un mot est quasi-périodique s'il possÚde une couverture dont le germe est un facteur strict du mot[4].
Dans cette notion plus générale, un mot périodique est aussi quasi-périodique de cette longueur.
Exemples
Pour , les mots et fournissent des couvertures alignĂ©es puisque ; les mots et sont tous des germes de : les couvertures par et sont celles de lui-mĂȘme ; celle par est et celle par est .
Pour le mot de longueur 23, la table ci-dessous donne, pour chaque préfixe, la longueur du plus long bord et la longueur de la plus petite couverture. Ainsi, le préfixe de longueur 9 a le bord de longueur 4, et n'a pas de couverture alignée, alors que est le germe d'une ouverture non alignée[5].
Table des bords et table des couvertures des préfixes de i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 x a b a a b a b a a b a a b a b a a b a b a b a B 0 0 1 1 2 3 2 3 4 5 6 4 5 6 7 8 9 10 11 7 8 2 3 C 0 0 0 0 0 3 0 3 0 5 6 0 5 6 0 8 9 10 11 0 8 0 3
Moore et Smyth[6] - [7] donnent un algorithme pour calculer toutes les couvertures d'un mot. Illiopoulos, Moore et Park[1] présentent un algorithme en pour trouver tous les germes d'un mot de longueur . Une présentation générales et donnée dans Christou et al[8]. Les couvertures optimales ont été étudiées par Mhaskar et Smyth[9].
Caractérisation
Un caractérisation des mots quasi-périodiques a été donnée par L. Mouchard[10].
Ătant donnĂ© un mot qui jouera le rĂŽle d'une quasi-pĂ©riode, soient les bords de (un bord est un facteur qui est Ă la fois prĂ©fixe est suffixe); et soient les prĂ©fixes de tels que . Alors tout mot quasi-pĂ©riodique de pĂ©riode est lâimage dâun mot sur un alphabet Ă lettres par le morphisme qui envoie sur . De maniĂšre Ă©quivalente, est produit des mots . Par exemple, le mot est quasi-pĂ©riodique de quasi-pĂ©riode . Il sâĂ©crit comme produit
- ,
oĂč le morphisme est dĂ©fini par , , .
Une façon Ă©quivalente, un mot quasi-pĂ©riodique peut s'Ă©crire comme produit de suffixes d'une quasi-pĂ©riode , en considĂ©rant les suffixes qui complĂštent un bord : . Pour , les suffixes sont lui-mĂȘme, et , et la factorisation est
- ,
oĂč le morphisme est dĂ©fini par , , .
Variantes
Une couverture améliorée (enhanced en anglais) de est un bord de (c'est-à -dire un préfixe propre qui est aussi un suffixe) qui couvre un nombre maximal de positions en , mais pas nécessairement toutes[11].
Mots infinis
Solomon Marcus a étendu la notion de mot quasi-périodique aux mots infinis et a posé à cette occasion diverses questions dans un article au bulletin de l'EATCS[12] - [13] qui a suscité plusieurs travaux subséquents[14] - [15] - [16] - [13].
L'exposant critique d'un mot infini quasi-périodique a été étudié par Gwenaël Richomme[17]. L'exposant critique d'un mot est le maximum des exposants des répétitions contenues dans le mot.
On sait, d'aprĂšs un rĂ©sultat de Dana Krieger et J. Shallit[18] que tout nombre rĂ©el plus grand que 1 peut ĂȘtre l'exposant critique d'un mot infini. Un mot infini pĂ©riodique a un exposant critique infini. Il n'en est pas ainsi pour les mots quasi-pĂ©riodique : il existe des mots infinis quasi-pĂ©riodiques dont l'exposant critique est pour tout . Le plus petit exposant critique d'un mot infini binaire quasi-pĂ©riodique est 7/3[17], et tout mot infini binaire contient une rĂ©pĂ©tition d'exposant au moins 7/3. Ces rĂ©sultats reposent sur des propriĂ©tĂ©s dĂ©crites par J. KarhumĂ€ki et J. Shallit[19].
On peut faire le lien entre l'exposant critique et la notion de run. Un run est une répétition maximale dans un mot, pourvu que l'exposant en soit au moins égal à 2. Par exemple, le mot contient les runs , , et d'exposants 5/2, 2, 7/3 et 3 respectivement. L'exposant critique de ce mot est donc 3.
Table des couvertures
La table des couvertures est l'analogue, pour les quasi-périodes, de la table des bords d'un mot : la table des bords d'un mot de longueur est la table à éléments donnant, pour chaque indice , le plus long bord du préfixe de longueur du mot . Par analogie, table des couvertures d'un mot de longueur est la table à éléments donnant, pour chaque indice , la plus longue couverture alignée du préfixe de longueur du mot , si ce préfixe possÚde un mot couvrant, et 0 sinon[5].
Par exemple[5], pour le mot de longueur 23, le préfixe de longueur 9 a le bord de longueur 4, et n'a pas de couverture alignée, alors que est le germe d'une ouverture non alignée.
Table des bords et table des couvertures i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 x a b a a b a b a a b a a b a b a a b a b a b a B 0 0 1 1 2 3 2 3 4 5 6 4 5 6 7 8 9 10 11 7 8 2 3 C 0 0 0 0 0 3 0 3 0 5 6 0 5 6 0 8 9 10 11 0 8 0 3
Notes et références
- Costas S. Iliopoulos, D. W. G. Moore et K. Park, « Covering strings », Algorithmica, vol. 16, no 3,â , p. 288â297 (ISSN 0178-4617, DOI 10.1007/BF01955677).
- Alberto Apostolico, Martin Farach et Costas S. Iliopoulos, « Optimal superprimitivity testing for strings », Information Processing Letters, vol. 39, no 1,â , p. 17â20 (ISSN 0020-0190, DOI 10.1016/0020-0190(91)90056-N)
- Dany Breslauer, « An on-line string superprimitivity test », Information Processing Letters, vol. 44, no 6,â , p. 345â347 (ISSN 0020-0190, DOI 10.1016/0020-0190(92)90111-8).
- Alberto Apostolico et Andrzej Ehrenfeucht, « Efficient detection of quasiperiodicities in strings », Theoretical Computer Science, vol. 119, no 2,â , p. 247â265 (DOI 10.1016/0304-3975(93)90159-Q).
- Yin Li et William F. Smyth, « Computing the cover array in linear time », Algorithmica, vol. 32, no 1,â , p. 95-106 (ISSN 0178-4617, DOI 10.1007/s00453-001-0062-2)
- Dennis W. G. Moore et William F. Smyth, « An optimal algorithm to compute all the covers of a string », Information Processing Letters, vol. 50, no 5,â , p. 239â246 (ISSN 0020-0190, DOI 10.1016/0020-0190(94)00045-X).
- Dennis W. G. Moore et William F. Smyth, « A Correction to "An Optimal Algorithm to Compute all the Covers of a String" », Information Processing Letters, vol. 54, no 2,â , p. 101-103 (DOI 10.1016/0020-0190(94)00235-Q)
- Michalis Christou, Maxime Crochemore, Costas S. Iliopoulos, Marcin Kubica, Solon P. Pissis, Jakub Radoszewski, Wojciech Rytter, Bartosz Szreder et Tomasz WaleĆ, « Efficient Seeds Computation Revisited », Lecture Notes in Computer Science, vol. 6661,â , p. 350â363 (ISSN 0302-9743, DOI 10.1007/978-3-642-21458-5_30)
- Neerja Mhaskar et William F. Smyth, « String covering with optimal covers », Journal of Discrete Algorithms, vol. 51,â , p. 26â38 (ISSN 1570-8667, DOI 10.1016/j.jda.2018.09.003)
- Laurent Mouchard, « Normal forms of quasiperiodic strings », Theoretical Computer Science, vol. 249, no 2,â , p. 313â324 (DOI 10.1016/S0304-3975(00)00065-7).
- TomĂĄĆĄ Flouri, Costas S. Iliopoulos, Tomasz Kociumaka, Solon P. Pissis, Simon J. Puglisi, William F. Smyth et Wojciech TyczyĆski, « Enhanced string covering », Theoretical Computer Science, vol. 506,â , p. 102â114 (ISSN 0304-3975, DOI 10.1016/j.tcs.2013.08.013)
- Solomon Marcus, « Quasiperiodic Infinite Words », Bulletin of the EATCS, no 82,â , p. 170-174.
- Florence LevĂ© et GwenaĂ«l Richomme, « On quasiperiodic morphisms », Proceedings of the 9th International Conference on Words,â , p. 181-192 (DOI 10.1007/978-3-642-40579-2_20).
- Amy Glen, Florence LevĂ© et GwĂ©naĂ«l Richomme, « Quasiperiodic and Lyndon episturmian words », Theoretical Computer Science, vol. 409, no 3,â , p. 578â600 (DOI 10.1016/j.tcs.2008.09.056).
- Florence LevĂ© et GwenaĂ«l Richomme, « Quasiperiodic infinite words: some answers », Bulletin of the EATCS, no 84,â , p. 128-138.
- Florence LevĂ© et GwenaĂ«l Richomme, « Quasiperiodic Sturmian words and morphisms », Theoretical Computer Science, vol. 372, no 1,â , p. 15â25 (DOI 10.1016/j.tcs.2006.10.034).
- GwenaĂ«l Richomme, « Minimal critical exponent of quasiperiodic words », Theoretical Computer Science, vol. 548,â , p. 117â122 (DOI 10.1016/j.tcs.2014.06.039).
- Dalia Krieger et Jeffrey Shallit, « Every real number greater than 1 is a critical exponent », Theoretical Computer Science, vol. 381, nos 1-3,â , p. 177â182 (DOI 10.1016/j.tcs.2007.04.037)
- Juhani KarhumĂ€ki et Jeffrey Shallit, « Polynomial versus exponential growth in repetition-free binary words », Journal of Combinatorial Theory, Series A, vol. 105, no 2,â , p. 335â347 (DOI 10.1016/j.jcta.2003.12.004).