(no subject)
Feb. 18th, 2008 01:26 pmНаписал простой скрипт, который считает слова в текстах
Напустил его на английский текст by James Joyce, Portrait of the Artist as a Young Man
Получил в результате список наиболее часто встречающихся в книге слов, которые, тем не менее, НЕ ВХОДЯТ в Топ-10000 частотного словаря англ. языка
Слово / кол-во в тексте книги
soul 170
cranly 124
dedalus 123
sin 94
fellows 64
holy 54
dante 50
cried 50
prefect 46
lips 45
rector 44
saint 41
grey 37
smell 33
darkness 33
uncle 32
heaven 31
Интересно, что такой список представляет из себя некое "лицо" или "сигнатуру" книги. Фильтрация слов из Топ-10тыс позвовляет убрать как бы общие места, не характерные для книги.
Хотя более верная методология - брать разницу между частотой слова в анг. языке и в данной книге, и сортировать эту разницу по убыванию
Напустил его на английский текст by James Joyce, Portrait of the Artist as a Young Man
Получил в результате список наиболее часто встречающихся в книге слов, которые, тем не менее, НЕ ВХОДЯТ в Топ-10000 частотного словаря англ. языка
Слово / кол-во в тексте книги
soul 170
cranly 124
dedalus 123
sin 94
fellows 64
holy 54
dante 50
cried 50
prefect 46
lips 45
rector 44
saint 41
grey 37
smell 33
darkness 33
uncle 32
heaven 31
Интересно, что такой список представляет из себя некое "лицо" или "сигнатуру" книги. Фильтрация слов из Топ-10тыс позвовляет убрать как бы общие места, не характерные для книги.
Хотя более верная методология - брать разницу между частотой слова в анг. языке и в данной книге, и сортировать эту разницу по убыванию