Не мытьем, так каканьем.Программа была настолько умная, что сама определяла грам- матическую принадлежность слова (существительное, глагол и т. п.) и распознавала потом это слово во всех его формах: паде- жах, лицах, числах и т.д. Когда работа была сделана, ее авторы, проверяя возможнос- ти своего детища, поинтересовались, в частности, какой глагол у Щербакова самый употребительный. И получил ответ: глагол "мыть". Авторы переглянулись: они неплохо знали тексты Щербакова и что-то не замечали там обилия этого глагола. Тогда они спро- сили, какой глагол следующий по употребительности, и программа уверенно ответила: глагол "какать"... Только шок, пережитый авторами работы, заставил их вспом- нить, что а) программа считает деепричастия не самостоятельны- ми словами, а формами соответствующих глаголов, и б) никто не сказал ей о такой штуке, как ударение, которым и различаются "какая"-местоимение и "какая"-деепричастие. Тогда-то выясни- лась и причина лидерства глагола "мыть" - у него кроме деепри- частия есть еще и подходящая форма повелительного наклоне- ния... |
Дальнейшая судьба этого словаря такова. Однажды Щербакова спросили, почему у него так часто встречается слово "флейта". Он стал считать и, насчитав три раза, сказал, что это не так уж много, если сравнить, например, с союзом "и"... После чего рассказал развеселившейся аудитории об этом самом частотном словаре, подаренном ему после исправления ошибки в программе. Ему, сказал он, даже совестно стало: как можно некоторые слова так часто использовать...
Date: Mon, 3 Aug 1998 19:09:01 -0400 (EDT) From: Vladimir SmirnovМного было на листе разговоров об этом документе, однако немногие его видели. Позволю себе процитировать некоторые выдержки из него. Первые 10 слов: и 2203 не 1486 я 1161 в 1113 что 736 весь 719 а 518 на 517 ты 497 как 486 Местоимения (личные, не какие-нибудь) я 1161 ты 497 мы 436 он 396 она 230 они 195 вы 136 оно 30 Местоимения прочие (первые 10) весь 719 как 486 этот 345 так 212 кто 194 тот 167 вот 141 твой 134 где 128 самый 124 Существительные (первые 10): ничто 78 Не совсем существительное, но симптоматично... Бог 74 (+ Боже 25 + Господь 9) день 74 дело 67 земля 66 слово 66 свет 65 мир 60 рука 58 друг 55 глаз 50 Замечаем большое количество частей тела в последнем списке. Случайность? сердце 37 лицо 23 нога 15 язык 15 губа 13 зуб 13 рот 13 лоб 12 Других частей тела в количествах >10 не обнаружено, если не считать неконвенциальных: конец 39 крыша 10 Имена собственные: Билли 17 Крым 17 Мария 14 Франция 10 Европа 7 Париж 7 Анета 6 Баб-эль-Мандебский 6 Москва 6 Томми 5 Джим 5 Китай 5 Глаголы (первые 10): быть 336 мочь 133 есть 91 !неотслеженный курьез типа "мыть" и "какать" идти 73 хотеть 63 дать 55 видеть 49 петь 49 жить 44 спать 43 Прилагательные (первые 10): большой 53 немой 40 новый 34 скорый 34 прекрасный 31 вечный 26 чужой 25 белый 23 правый 23 дорогой 21 !(esche odin omonim?) Их в среднем в 1.5-2 раза меньше, чем местоимений типа прилагательных: самый 124 свой 116 такой 107 какой 88 другой 70 каждый 53 который 39 всякий 37 иной 29 никакой 25 Некоторые омонимы (кроме уже упомянутого "есть"): во 89 уж 67 лета 33 сей 31 мол 30 ля 13 глава 9 И, наконец, слова, имеющие отношение к тому, что на эту тему написано в архивах листа: мой 264 какой 88 флейта 7 (Щ. утверждал, что 3, согласно репортажу) Если кого заинтересуют еще какие-либо категории слов, пишите - может быть, пришлю.