0
<< предыдущая заметкаследующая заметка >>
18 февраля 2012
Спутинк наших дней

Нынче наткнулся на любопытный сервис Google: http://books.google.com/ngrams. Поскольку у Гугля в базах более 5 миллионов книг, то тут, значит, можно построить графики встречаемости слов в книгах по эпохам. Например, понаблюдать наглядно, как входят в речь новые слова и жаргонизмы:

Возмутиться пошлостью и падением литературных нравов:

Да и, в общем, на этом всё. Потому что, как это неизбежно случается с любыми попытками литературного анализа тупой машиной, обязательно появляются грабли, которые сводят на нет всё доверие к инструменту. Достаточно ввести нехитрый запрос:

Логично было бы предположить, что написание слова стало меняться в эпоху интернета, а раньше его не было вообще. Но Google потрясает наше воображение присутствием слова «блять» во всей русской классике. Что это? Разумеется, Щедрин, Фонвизин и Тургенев не писали такого, достаточно ткнуть в нижнюю строчку под графиком и посмотреть, что конкретно нашел Google в этом контексте в те далекие эпохи. Оказывается, помимо многочисленных глюков с датировками текстов, Google индексирует куски и окончания слов как самостоятельные, а после выдает за результат. Google не смог это убрать или не захотел это делать, поспешив объявить сервис на той базе, что есть. Вот еще более показательный пример:

Куда ни плюнь, всюду вечный Путин, особенно в 1937. Я понимаю, логично и в тренде политического момента, хоть дари Суркову для агитационных роликов. Но как так получилось? Оказывается, половина ошибок — неправильные датировки книг, что весьма непростительно. Это же не индексация сайтов, это ручное создание библиотек, можно же было навести там порядок и не датировать 1800 годом всякие публикации о ельцинских премьер-министрах? Ну а в остальном дореволюционный Путин представляет собой куски слов пополам с ошибками сканирования:

Либо просто авторские опечатки:

Мораль: хотелось бы качественных инструментов по анализам текстов, которым можно было бы доверять. Но пока качество подобных штук даже у Гугля скверное.

<< предыдущая заметка следующая заметка >>
пожаловаться на эту публикацию администрации портала
архив понравившихся мне ссылок
Вау, какие красивые рекламные баннеры! Делимся инфой с местными друзьями!
Лео Каганов: стихи

BERLIN

22 сентября
Бар «Kvartira 62» Lübbener Str.18
Лео Каганов: стихи

HANNOVER

23 сентября
19:00
Stadtteilzentrum Lister Turm Walderseestraße 100
Лео Каганов: стихи

MÜNCHEN

25 сентября
Kulturzentrum GOROD Arnulfstraße 197, 80634 München
Лео Каганов: стихи

С Л Ё Т

26-28 сен
Слёт-семинар под Нюрнбергом Jugendfreizeitstätte Edelweißhütte Deckersberg 34, 91230 Happurg 49.470549, 11.440136
Лео Каганов: стихи

?

Лео Каганов: стихи

NÜRNBERG

1 октября
Kulturladen Röthenbach. Röthenbacher Hauptstraße 74, 90449

Комментарии к этой заметке сейчас отключены, надеюсь на понимание.