Obsah - Index - Předchozí - Další


Americký systém Soundex


Americký systém Soundex kódů je tvořen prvním písmenem jména následovaným třemi číslicemi.  Tyto tři číslice jsou vypočteny po odstranění písmen a, e, i, o, u, h, w, y a přidání tří číslic ze zbylých písmen jména podle níže uvedené tabulky.  Musí být splněny pouze dvě další podmínky. (1) Pokud mají dvě nebo více následujících písmen stejný kód, jsou kódovány jako jedno písmeno. (2) Pokud není dostatek písmen pro vytvoření třech číslic, jsou jako místo zbývajících číslic doplněny nuly.

Tabulka Soundex
1 b, f, p, v
2 c, g, j, k, q, s, x, z
3 d, t
4 l
5 m, n
6 r

Příklady:
Miller M460 
Peterson P362 
Peters P362 
Auerbach A612 
Uhrbach U612 
Moskowitz M232 
Moskovitz M213 
Ashcroft A261 
Burroughs B620 

Výpočet Soundex kódu ručně: 
1 Zapište jméno na kus papíru.
2 Vyškrtněte mezery, interpunkci, diakritiku a jiné podobné znaky. 
3 Vyškrtněte všechny následující znaky A, E, I, O, U, H, W, Y (kromě prvního písmene jména).
4 Vyškrtněte druhé písmeno duplicitních znaků. 
5 Vyškrtněte druhé písmeno ze sousedních znaků se stejným číslem soundex. 
6 Převeďte znaky na pozicích 2 až 4 na číslice. 
B, P, F, V = 1 
C, S, K, G, J, Q, X, Z = 2 
D, T = 3 
L = 4 
M, N = 5 
R = 6 
7 Vyplňte nevyužité pozice nulami, např. Lee je L000, Bailey je B400.  Výsledkem musí být vždy jedno písmeno doplněné třemi číslicemi. 

Omezení Soundex 
Jména, která podobně znějí, nemusí mít vždy stejný kód soundex.  Např. Lee (L000) a Leigh (L200) mají podobnou výslovnost, ale rozdílné kódy soundex, protože písmeno g dává kód.
Jména, která podobně znějí, ale mají různá počáteční písmena, mají vždy různý soundex kód.  Jména jako Carr (C600) a Karr (K600) by tedy měly být vypočteny odděleně. 
Soundex je založen na anglické výslovnosti, takže evropská jména nemusí být správně okódována.  Např. francouzská příjmení, která obsahují poslední písmeno, jež se nevyslovuje, nebudou kódována podle výslovnosti.  To je případ francouzského jména Beaux, kde x se nevyslovuje.  Toto příjmení se někdy hláskuje jako Beau (B000) a vyslovuje se stejně jako Beaux (B200), i když mají různé kódy soundex.  Uvedli jsme tady příklad z Francie, ale tato situace může nastat s jakýmkoli jiným jménem, které má odlišnou výslovnost než je anglická.
Jména, která znějí odlišně, mají někdy stejné kódy soundex.  Při hledání příjmení Powers (P620) narazíme na jména jako Pierce, Price, Perez a Park, která mají stejné kódy soundex.  A Power (P600), obvyklý způsob hláskování Powers před 100 lety, má jiný soundex kód.
Příjmení s předponami byla obyčejně kódována bez těchto předpon, ne však vždy.  Pokud hledáte příjmení jako DiCaprio nebo LaBianca, měli byste zkusit hledat soundex jmen bez předpony i s předponou.
Zmatek v americkém systému soundex se zvětšuje u jmen jako Ashcraft.  Když původní tvůrce soundex kódu neokódoval H a nevzal v úvahu, že H je oddělovač mezi sousedními znaky se stejným kódem, pak S a C jsou považovány za sousední znaky se stejným soundex kódem a soundex bude A261.  Ve sčítacích formulářích z roku 1920 je jméno Ashcraft nalezeno pod A261, tedy výsledkem, který dostanete na této stránce.
Ti, kdo kódovali soundex při sčítání v letech 1880, 1900 a 1910, tyto podmínky dodržovali nebo ne.  Někdy považovali H za oddělovač a nekódovali S a C jako sousední znaky, kterým by mělo být dáno pouze jedno číslo, ale raději dali číselný kód každému písmenu.  V tomto případě by Ashcraft měl kód A226. 
Důležité je vědět, že americké sčítání lidu nebylo konsistentní v používání H a W jako oddělovačů mezi sousedními znaky.  Pokud zkoušíte vypočítat soundex pro jméno s písmeny H a W, které oddělují dva sousedními znaky, je nejlepší vypočítat soundex při použití dvou různých metod, abyste jméno ve sčítacích formulářích nalezli.  Platí to o jménech, které mají písmena C,S,G,J,K,Q,X,Z na obou stranách od písmena H nebo W  jako SHC, SHS, CHS, KHZ, SWS, KWS, CWK. 
Příjmení, které obsahuje více slov, nebo příjmení, které předchází křestnímu jménu, jako mají příjmení domorodých Američanů nebo Číňanů, mohou být okódována podle jména, které se objevilo na posledním místě.  V případě víceslovných příjmení mohlo být tedy okódováno pouze poslední slovo.

9-0169