Леонид Блехер

Статья была написана для сборника "МКЩ", редактор и составитель Оксана Савоскул. Здесь публикуется полная авторская редакция.

Работа продолжается

Настоящая статья представляет собой попытку представить в первом приближении и в общих чертах результаты статистического анализа лексики текстов песен Михаила Щербакова.

Материалом для анализа послужили тексты 280 песен, написанных в период между 1981-м и 2005-м годами, в разном виде опубликованные автором.

Базовая обработка исходного массива была проведена Сергеем Трифоновым с помощью программных средств компании «Яндекс», с последующей детальной доработкой в «ручном режиме».

Нужно отметить, что результаты анализа нельзя считать совершенно точными, в силу прежде всего изначально условной регламентированности самого языка вообще, и художественной речи в особенности. Семантическая неоднозначность некоторых слов сделали затруднительным более точный учет: во многих случаях разные по смыслу слова учитывались как одно, в том числе из-за невозможности выделить приоритетное значение. Например, слово «великий» (как большой и как значительный), «небеса» (как небосклон и как рай), «отвечать» (чему-либо или за что-то), и т.п.

Многозначность служебных слов еще менее поддаётся семантической дифференциации.

Самые короткие песни - «Седьмой трамвай» (69 слов) и «Тема покоя» (71 слово). Самые длинные песни - «Баб-Эль-Мандебский пролив» (596 слов) и «Предположим» (575 слов).

Собственных имен - приблизительно 440 слов. Из них топонимов - около 190 (43% от общего числа имен собственных), личных имен - около 160 (36% от общего числа имен собственных).

Общий объем проанализированного массива - 60687 слов. Для наглядности статистической картины мы построили распределение по следующим частям речи:

  1. Существительные;
  2. Глаголы;
  3. Прилагательные;
  4. Наречия, местоимения, числительные и нек.др.;
  5. Служебные слова: союзы, частицы, предлоги и т.п.

Общая картина распределения такова:

Части речиОбщее
количество
% от общего
количества слов
Существительные1527025,2%
Глаголы1013116,7%
Прилагательные42187,0%
Наречия, местоимения, числительные и нек.др.1449423,9%
Служебные слова: союзы, частицы, предлоги и т.п.1657427,3%
ИТОГО60687 

 

Если учитывать только различные, неповторяющиеся слова, то картина такова:

Части речи
Количество
неповторяющихся слов
% от количества
неповторяющихся слов
Существительные500248,4%
Глаголы262125,4%
Прилагательные156015,1%
Наречия, местоимения, числительные и нек.др.107910,4%
Служебные слова: союзы, частицы, предлоги и т.п.740,7%
ИТОГО10336 

Статистика по отдельным частям речи

1. Существительные

Десять самых употребляемых существительных и их количество

СловоЧастота% от общего количества
существительных (15270 слов)
год/лет1070,7%
день930,6%
Слово/слово850,6%
рука840,6%
Земля/земля820,5%
Бог/бог810,5%
дело750,5%
свет730,5%
глаз700,5%
мир/миры660,4%
ИТОГО8165,3%

Существительные с самой низкой частотой

ЧастотаКоличество% от общего количества
существительных (15270 слов)
1275218,0%
2183612,0%
312698,3%
49686,3%
Итого682544,7%

Т.е., около половины всех существительных употреблялось по одному, два, три и четыре раза.

2. Глаголы

Десять самых употребляемых глаголов и их количество

СловоЧастота% от общего количества
глаголов (10131 слово)
быть5785,7%
мочь1791,8%
знать1461,4%
сказать1151,1%
идти1011,0%
стать1011,0%
хотеть830,8%
давать800,8%
видеть610,6%
жить610,6%
ИТОГО150514,9%

Глаголы с самой низкой частотой

ЧастотаКоличество% от общего количества
глаголов (10131 слово)
1131313,0%
2101610,0%
36426,3%
45805,7%
Итого355135,1%

Т.е., более трети всех глаголов употреблялось по одному, два, три и четыре раза.

3. Прилагательные

Десять самых употребляемых прилагательных и их количество

СловоЧастота% от общего количества
прилагательных (4218 слов)
другой942,2%
иной501,2%
новый421,0%
белый390,9%
черный390,9%
любой360,9%
последний320,8%
милый310,7%
большой290,7%
прекрасный290,7%
ИТОГО42110%

Прилагательные с самой низкой частотой

ЧастотаКоличество% от общего количества
прилагательных (4218 слов)
196022,8%
248211,4%
32886,8%
42526,0%
Итого198247%

Т.е., около половины всех прилагательных употреблялось по одному, два, три и четыре раза.

4. Наречия, местоимения, числительные и нек.др.

Десять самых употребительных слов этой категории и их количество

СловоЧастота% от общего количества
слов (14494 слова)
я151910,5%
все/весь8365,8%
тот6874,7%
он6844,7%
ты6074,2%
мы4863,4%
этот4172,9%
она3062,1%
мой2972,0%
они2541,8%
ИТОГО609342,0%

Слова с самой низкой частотой

ЧастотаКоличество% от общего количества
слов (14494 слова)
14212,9%
23302,3%
33422,4%
42641,8%
Итого13579,4%

5. Служебные слова: союзы, частицы, предлоги и т.п.

Десять самых употребительных слов этой категории и их количество

СловоЧастота% от общего количества
(16574 слова)
и277216,7%
не218313,2%
в16499,9%
что10046,1%
на7784,7%
а6784,1%
как6083,7%
но5213,1%
с5103,1%
ни3632,2%
ИТОГО1106666,8%

Слова с самой низкой частотой

ЧастотаКоличество% от общего количества
слов (16574 слова)
120,0%
220,0%
360,0%
550,0%
Итого150,1%