Un moyen de trouver des mots qui diffèrent d'une seule consonne dans une grande liste de mots

Question

J'ai une liste de près de 5 000 mots « fantastiques » écrits en texte ASCII. Certains des mots sont les suivants : txintoqtxiqbaltxiqfuntxiqwektxiqyaltxiytontxonmiqtxoqwultxoqxik Je souhaite concevoir un algorithme qui vérifie/vérifie qu'il n'y a pas deux mots dans la liste qui diffèrent par une seule « consonne similaire ». Je vais donc définir les « ensembles de consonnes similaires » comme ceci (pour l'instant) : zsxjpbtdkg Il peut y avoir 3 consonnes ou plus dans un ensemble, mais je vais simplement

P粉238433862 · Answer

Choisissez une consonne dans chaque groupe pour être le "représentant" de ce groupe. Ensuite, créez une carte qui regroupe les mots de telle sorte qu'ils deviennent identiques lorsque leurs consonnes sont remplacées par leurs consonnes représentatives.

Remarque importante : Cette méthode ne fonctionne que lorsque les groupes de consonnes forment des classes d'équivalence. En particulier, la similarité des consonnes doit être transitive. Si 'bp'相似，'bv'相似，但'pv' n’est pas similaire, cette méthode n’a aucun effet.

Voici le code de l'exemple en Python ; je vous laisse écrire le code JavaScript.

f est une cartographie qui mappe chaque consonne à sa consonne représentative
d est une carte qui mappe chaque mot représenté à une liste de mots avec cette représentation.

bigwordlist = '''dolbar
dolpar
jumaq
txindan
txintan
txintoq
txiqbal
txiqfun
txiqwek
txiqyal
txinton
txonmiq
txoqwul
txoqxik
xumaq'''.splitlines()

consonant_groups = '''zs
xj
pb
td
kg'''.splitlines()

f = {}
for g in consonant_groups:
    for c in g:
        f[c] = g[0]

print(f)
# {'z': 'z', 's': 'z', 'x': 'x', 'j': 'x', 'p': 'p', 'b': 'p', 't': 't', 'd': 't', 'k': 'k', 'g': 'k'}
    
d = {}
for word in bigwordlist:
    key = ''.join(f.get(c, c) for c in word)
    d.setdefault(key, []).append(word)

print(d)
# {'tolpar': ['dolbar', 'dolpar'], 'xumaq': ['jumaq', 'xumaq'], 'txintan': ['txindan', 'txintan'], 'txintoq': ['txintoq'], 'txiqpal': ['txiqbal'], 'txiqfun': ['txiqfun'], 'txiqwek': ['txiqwek'], 'txiqyal': ['txiqyal'], 'txinton': ['txinton'], 'txonmiq': ['txonmiq'], 'txoqwul': ['txoqwul'], 'txoqxik': ['txoqxik']}

Enfin, nous pouvons voir quels mots sont similaires :

print([g for g in d.values() if len(g) > 1])
# [['dolbar', 'dolpar'], ['jumaq', 'xumaq'], ['txindan', 'txintan']]