Візуалізація: Частотність літер залежно від позиції у слові. Нормалізовані дані

Після публікації візуалізації із частотністю слів залежно від позиції у слові отримав кілька порад нормалізувати дані за довжиною слова. Totally makes sense! Отже, замість оперувати абсолютними позиціями літер у слові, ми тепера оперуємо відносними, зваженими на довжину слова.

частотність літер залежно від позиції у слові

частотність літер залежно від позиції у слові

Що дає нормалізація в цьому випадку? Всі літери, що вживаються наприкінці слова, в результаті нормалізації отримують однакову позицію - 1, незалежно від довжини слова. Всі літери, що вживаються в середині слова, отримують позицію 0.5, незалежно від довжини слова.

В першу чергу це працює на краще виявлення паттернів закінчень слів. Зверніть увагу на Й, Ь та Я. Ще, здається, можна помітити подвоєне Н.

З технічної точки зору - замість ribbon тепера density, у зв’язку з чим змінилося позиціонування літер. Новий варіант подобається значно більше за попередній. Power of iteration!


Код на GitHub