» Анализатор текста, альфа-версия

Анализатор текста, альфа-версия

Тут некто опубликовал исходники на С одной утилиты. А я взял и пересобрал ее на JavaScript.

Анализатор Текста, альфа-версия

Результат заточен под Эксель. Копируешь в Эксель, сразу ставит в колонку. Там же строишь графики.
Тест на 600 килобайт обрабатывается за минуты две.

Что это? Слово :

http://www.livejournal.com/users/vchk/50658.html#comments -

Нижеприведённая программка делает очень простую вещь - считает, сколько в тексте есть разных буквосочетаний. Из соображений скорости и простоты она учитывает только 512 наиболее распространённых в русском языке буквосочетаний. На выходе получаем простой список из 512 относительных величин в экспоненциальном формате - количество буквосочетаний одного типа отнесённое к общему количеству буквосочетаний. Теперь остаётся только загнать этот список в какую-нибудь программку для построения графиков, чтобы она нарисовала нам спектр текста (я пользую gnuplot).

А главное, и самое интересное, что этот самый спектр текста будет почти одинаков для разных текстов одного автора и будет отличаться для текстов разных авторов. Нарисовав в одном графике спектры для двух текстов, мы без особого труда можем определить, принадлежат ли тексты разным людям, или они были написаны одним человеком (ну или нелюдем). Тексты, правда, должны быть достаточно длинными, чтобы дать спектр действительно характерный для изучаемого автора - книга, например, или собранные в один файл сотни комментариев.

PS: алгоритм простой
1. Взять очередной слог из массива слогов
2. найти, сколько раз он входит в анализируемый текст
3. записать полученное число как очередной элемент массива для спектра

PS2 если где я допустил косяк при адаптации, можете тыкать…


Leave a Reply




#hello#