Feb. 18th, 2008

orleanz: (Default)
Написал простой скрипт, который считает слова в текстах

Напустил его на английский текст by James Joyce, Portrait of the Artist as a Young Man

Получил в результате список наиболее часто встречающихся в книге слов, которые, тем не менее, НЕ ВХОДЯТ в Топ-10000 частотного словаря англ. языка

Слово / кол-во в тексте книги

soul 170
cranly 124
dedalus 123
sin 94
fellows 64
holy 54
dante 50
cried 50
prefect 46
lips 45
rector 44
saint 41
grey 37
smell 33
darkness 33
uncle 32
heaven 31

Интересно, что такой список представляет из себя некое "лицо" или "сигнатуру" книги. Фильтрация слов из Топ-10тыс позвовляет убрать как бы общие места, не характерные для книги.

Хотя более верная методология - брать разницу между частотой слова в анг. языке и в данной книге, и сортировать эту разницу по убыванию

Profile

orleanz: (Default)
orleanz

December 2018

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
3031     

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Aug. 28th, 2025 11:29 pm
Powered by Dreamwidth Studios