19 октября 2009 г.

Словометр

Все началось с того, что я выдвинул гипотезу:

Цой/Кино в своих песнях в основном обращается от первого лица (Я/Мы), Ария в основном от второго лица (Ты), а Браво от третьего лица (Он/Она).

Проверку гипотезы проще всего было бы сделать подсчетом популярности того или иного слова. Техническая проблема была в том, что ворд такой функции не имеет. Пришлось годы спустя, найти специальную утилитку (надеюсь паралелльно она не перехватывает мои банковские данные), которая позволяет это делать.

Итак, результаты:




Т.е. гипотеза в целом подтверждается (цифра в скобках это удельный вес слова). Так же интересно посмотреть на популярные слова и на количество слов в лексиконе авторов (привет Элочке-Л.!)

Разумеется, получив в руки такой мощный инструмент псевдоанализа, я не удержался и сделал анализ популярных слов из родительских книжек, а для базы сравнения взял несколько художественных книжек.

"После трех уже поздно"
ребенок 533/21.4
дети 329/13.2
развитие 135/5.4
родители 165/6.6
мама 126/5.1
папа 28/1.1

"Как любить ребенка"
ребенок 414/11.8
дети 175/5.0
мама 180/5.1
жизнь 120/3.4
папа 23/0.7

"Как общаться с ребенком"
ребенок 475/11.0
мама 237/5.5
родители 328/7.6
дети 240/5.6
папа 112/2.6

Что сразу бросается в глаза? Конечно, это книжки про детей и ребенка. Но потом идут определяющие нюансы: либо автор пишет про развитие, либо про жизнь, либо про родителей и детей. Так же интересно, что папы менее популярны, чем мамы.


"Атлант расправил плечи"
время 230
сейчас 213
человек 198
всегда 140
лицо 137
логичный набор для книги про бизнес - время и люди.

"Приключения майора Звягина"
жизнь 374
жена 192
человек 151
сейчас 126
Книга про жизнь и место человека в ней. Ну а жена, просто популярный персонаж:)

"Иметь или Быть"
быть 217
человек 302
людей 155
жизни 153
обладание 194
общество 92
люди 88
бытия 145
время 71
жизнь 69
существования 66
характера 65
иметь 64
любовь 61
собственности 58
Не оставляет сомнений в предпочтения автора и правильном ответе

Вне зачета Самерхилл (абсолютный/относительный вес):
child 1058/9.2
Children 867/7.5
school 408/3.5
summerhill 372/3.2
life 347/3.0
sex 334/2.9
parents 306/2.7
love 296/2.6
mother 244/2.1
fear 236/2.0
conscious 181/1.6
hate 217/1.9
home 184/1.6
freedom 180/1.6
father 183/1.6
Что еще раз подтверждает: автор пишет про детей, школу, жизнь, чувства, свободу. Занятно, что секс между родителями и жизнью (причем родители, менее популярны).

PS. А как же Браво? Браво не закачалось, впрочем как и С.Лупань.
PS2. Разумеется, подобные исследования и рейтингу существуют давно. Например:
Top Words

2008: Global Language Monitor
Top Words: No. 1 Change, No. 2 Bailout, No. 3 ObamaMania
Top Phrases: No. 1 Financial Tsunami, No. 2 Global Warming, No. 3 “Yes, We Can!”
Top Names: No. 1 Barack Obama, No. 2 George W. Bush, No.3 Michael Phelps

2007: Global Language Monitor
Top Word: Hybrid (representing all things green) No. 2: Surge
Top Phrase: Climate Change
Top Name: Al Gore

2006: Global Language Monitor
Top Word: Sustainable
Top Phrase: Stay the Course
Top Name: Dafur

2005: Global Language Monitor
Top Word: Refugee No. 2: Tsunami No. 3: Katrina
Top Phrase: Outside the Mainstream
Top Name: (acts of ) God

В принципе слова все "на слуху" за исключением Michael Phelps (это оказывается олимпиец-пловец) и Dafur (это место в Судане).
Refugee: беженец.

1 комментарий: