Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс»




Скачать 233.51 Kb.
НазваниеСтатья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс»
страница1/3
Дата публикации29.06.2013
Размер233.51 Kb.
ТипСтатья
www.lit-yaz.ru > Литература > Статья
  1   2   3
Поисковые системы Интернета как лингвистический источник (на примере решения некоторых теоретических и прикладных вопросов русского словообразования ) // Новые явления в славянском словообразовании. Система и функционирование. Доклады XI Международной научной конференции Комиссии по славянскому словообразованию при Международном комитете славистов. /Под ред. проф. Е. В. Петрухиной. - Москва. Изд. Московского университета, 2010. - С.197-212.

Поисковые системы Интернета как лингвистический источник (на примере решения некоторых теоретических и прикладных вопросов русского словообразования)
Н. Д. Голев
Целью настоящей статьи является представление возможностей нового лингвистического источника – поисковых систем Интернета и его статистических данных. Говоря о последних, мы имеем в виду статистику слов, которая сопровождает результаты поиска. Например, сделав в «Яндексе» запрос на слово статья, получаем статистику – 409 млн. страниц, на которых в Интернете зафиксировано это слово, представление – 298 млн., лингвистический – 7 млн., источник – 189 млн. (Поисковая система «Яндекс», данные на 21 марта 2009). В статье будут проиллюстрированы возможности названного источника на примере решения лингвистических задач разного типа – поисковых, лексикографических, теоретических – преимущественно в сфере русского словообразования с привлечением данных из других сфер. Этим мы хотели бы подчеркнуть универсальность предлагаемого источника.

Далее назовем и охарактеризуем значимые лингвоисточниковедческие особенности данных Интернета и их исследовательские возможности.
^ 1

Важнейшей характеристикой представляемого источника является его «квантитативная мощность», которая отчетливо видна на фоне известных частотных словарей. К примеру, для слов, охарактеризованных в словаре Л. Н. Засориной [Частотный словарь 1977: 837] частотностью 38 (на 1 млн. выборки), «Яндекс» дает такие результаты: девица – 5 млн., дневник – 148 млн., дружественный – 7 млн., заведующий – 5 млн., исследователь – 16 млн., истинный – 27 млн., картинка – 302 млн., кланяться – 984 тыс., когда-нибудь – 13 млн., коса – 8 млн., кошка – 180 млн., кризис – 33 млн., крокодил – 7 млн., кусочек – 12 млн., лунный – 12 млн., механизатор – 590 тыс., милиция – 37 млн., молния – 10 млн., мышь – 38 млн., намерение – 21 млн., напечатать – 81 млн., натура – 11 млн., окончить – 13 млн., освещать – 13 млн., отчет – 58 млн., поворачиваться – 20 млн., повышенный – 77 млн., политик – 213 млн. страниц. Наименьшее соотношение в данной группе слов, обнаруживаемое в частотностях слова механизатор, – 590 000 : 38, то есть в Интернете данное слово представлено в 16 тыс. раз чаще, наибольшее – в частотностях слова картинка – в Интернете это слово встречается примерно в 8 млн. раз чаще (302 000 000 : 38). Сказанное означает, что «квантитативная мощность» Интернета превосходит «мощность» частотного словаря на несколько порядков. Это важно подчеркнуть хотя бы для того, чтобы отчасти снять вопрос о возможных издержках стихийной статистики Интернета. На наш взгляд, ее неизбежные помехи, которые достаточно очевидны во многих случаях, чаще всего (разумеется, не всегда) перекрываются огромными количественными показателями, позволяющими выявлять и описывать объективные тенденции в языке и речи.
2

Сугубо количественная характеристика, которую дает слову «квантитативный коэффициент», извлеченный из поисковых систем Интернета, является одновременно информативной. Здесь возникает проблема квалификации содержания данных, эксплицируемая следующими вопросами: какое лингвистическое содержание слова стоит за количеством его фиксаций в поисковых системах Интернета, какие элементы (свойства, отношения) русского языка или языкового сознания оно характеризует, каким образом следует содержательно интерпретировать тот факт, что, скажем, предлог в более частотен, чем предлог на, глагол входить, чем выходить, сделать, чем делать, а имя Александр частотнее, чем Владимир, каково соотношение индивидуального и типового в этих отношениях?

Думается, что количественный индекс образуется вследствие пересечения действий многих факторов, определяющих бытие естественных языковых знаков. Для представления этих факторов, воспользуемся известной семиотической оппозицией синтактики, семантики и прагматики. Во-первых, это фактор синтактики, выдвигающий по частотности на первый план всевозможные служебные слова и связки, употребление которых носит универсальный характер, и внутренней, системной, «коммуникативистики», объясняющей, например, высокую частотность местоимений, частиц, модальных слов; во-вторых, фактор внутриязыковой семантики, в частности, определяющей зависимость частотности слов от простоты / сложности их семантики (слова-примитивы с одной коммуникативно значимой семой естественным образом частотнее более сложных, часто производных от них слов); в-третьих, фактор денотативной семантики, фиксирующей значимость денотатов лексем в реальной действительности и тем самым коммуникативную потребность в данных лексемах; в-четвертых, фактор прагматики: в частотности слова отражается его культурно-психологическая значимость (например, «модность» лексем на протяжении определенного времени, их значимость в культурной жизни народа); в пятых, коммуникативно-синергетический фактор, отражающий неизбежную конкуренцию лексем, каждая из которых стремится к бесконечной функционально-семантической валентности, в результате чего одни лексемы утрачивают свой потенциал, вытесняются в области узкого употребления, другие, напротив, усиливают его; параллельно этим процессам происходит дифференциация лексем по смыслу и сферам функционирования и стилистической окраске. Но в целом надо признать, что лингвистам еще нужно научиться «читать» частотные характеристики слов и словников, вырабатывать язык описания и интерпретации количественных данных лексем и их соотношений для их перевода в характеристики качественные. Несомненно, что важнейшим способом такого прочтения является сравнение лексем, образующих списки (парадигмы), формируемые по линии убывания / нарастания их частотности, и сравнение самих списков (парадигм) в плане их коррелятивности по частотности с дальнейшей качественной интерпретацией обнаруженных количественных соотношений.
^ 3

Весьма значимой характеристикой представляемого источника, отличающего его от известных частотных словарей, является полнота выборки – одна из наиболее важных предпосылок качества квантитативных характеристик слова. Если, например, частотный словарь под редакцией Л. Н. Засориной строится на выборке из четырех типов текстов: газетно-журнальных, драматургических, научных и публицистических (объединенных в одну группу) и художественных, – то функциональные и семантические границы статистики Интернета фактически открыты. Проиллюстрируем сказанное примерами из лексики, не помещаемой в традиционные филологические словари. Критерием их лексикографической незафиксированности для нас в приводимых далее примерах служит «Сводный словарь современной русской лексики», обобщивший, как сказано в аннотации к нему, сведения 14 наиболее популярных словарей: толковых, энциклопедических, орфографических [Сводный словарь 1990–1991].

  • В Интернете легко обнаруживаются все типы имен собственных и их производных, обычно не отмечаемых в популярных лингвистических словарях. Далее приведем список наиболее частотных русских имен в порядке убывания (данные «Яндекса» на 15 декабря 2004 г.).



Имя


Количество страниц

Количество сайтов

Количество слов

Сергей


7 252 609

19 723

16 697 775

Александр

6 987 114

20 860

16 695 774

Андрей

5 386 295

17 095

12 684 479

Дмитрий

4 419 535

14 027

9 362 431

Алексей

4 410 414

15 295

8 812 361

Михаил

3 818 039

13 445

7 351 635

Николай

2 898 521

11 953

6 517 950
  1   2   3

Добавить документ в свой блог или на сайт

Похожие:

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconНационализм и самовосприятие предостережение
Население Голландии составляет 15,5 млн человек. (Для сравнения: датчан — 5 млн, бельгийцев — 10 млн, англичан — 49 млн, французов...

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconКотоусова А. М., Котоусов Н. Г. Вяленые фрукты и овощи
Ссср предусмотрены крупные меры по улучшению снабжения населения плодоовощной продукцией. Среднегодовое производство овощей и бахчевых...

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconПрограмма рассчитана на три года. Финансирование в первый год предоставляется...
Полный бюджет проекта по линии Фонда – до 6,0 млн рублей, в том числе 1,0 млн рублей на первый год, до 2,0 млн рублей на второй год...

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconМетодические рекомендации к проведению урока к 68-летию победы советского...
Ом целых цивилизации, культур, наций, сплотились в единой борьбе с этим злом. Во Вторую мировую войну было вовлечено 72 государства,...

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconНовый мир
Задекларированная им общая сумма годового дохода составляет 17,362 млн грн. (около 2,170 млн долл.)

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconРис Экологические угрозы в Центральной Азии Источник: unep-arendal, April 2005
Казахстан, Узбекистан производителей природного урана составляет 5 млн кв км, а общая численность населения превышает 55 млн человек....

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconНемецкий Русский
Федеративная Республика Германия (фрг) находится в Центре Европы. Ее площадь 357 000 км, а население около 82 млн человек, из них...

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconВ 2012 году администрация и депутаты выполнили все, что было запланировано
Доходная часть поселкового бюджета составила 310 млн рублей, расходная – 265 млн рублей. Таким образом, мы по-­прежнему являемся...

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconСодержание
На вебсайтах, которые принадлежат предприятию studivz ltd. (studiVZ, schuelervz и meinVZ), более 10 млн зарегистрированных пользователей....

Статья, получаем статистику 409 млн страниц, на которых в Интернете зафиксировано это слово, представление 298 млн., лингвистический 7 млн., источник 189 млн. Поисковая система «Яндекс» iconI. возврат к довоенной модели экономического развития
В 1946 г населе­ние СССР (172 млн жителей) едва превышало уровень 1939 г накануне включения в Советский Союз территорий с населени­ем...



Образовательный материал



При копировании материала укажите ссылку © 2013
контакты
www.lit-yaz.ru
главная страница