0
<< предыдущая заметкаследующая заметка >>
18 февраля 2012
Спутинк наших дней

Нынче наткнулся на любопытный сервис Google: http://books.google.com/ngrams. Поскольку у Гугля в базах более 5 миллионов книг, то тут, значит, можно построить графики встречаемости слов в книгах по эпохам. Например, понаблюдать наглядно, как входят в речь новые слова и жаргонизмы:

Возмутиться пошлостью и падением литературных нравов:

Да и, в общем, на этом всё. Потому что, как это неизбежно случается с любыми попытками литературного анализа тупой машиной, обязательно появляются грабли, которые сводят на нет всё доверие к инструменту. Достаточно ввести нехитрый запрос:

Логично было бы предположить, что написание слова стало меняться в эпоху интернета, а раньше его не было вообще. Но Google потрясает наше воображение присутствием слова «блять» во всей русской классике. Что это? Разумеется, Щедрин, Фонвизин и Тургенев не писали такого, достаточно ткнуть в нижнюю строчку под графиком и посмотреть, что конкретно нашел Google в этом контексте в те далекие эпохи. Оказывается, помимо многочисленных глюков с датировками текстов, Google индексирует куски и окончания слов как самостоятельные, а после выдает за результат. Google не смог это убрать или не захотел это делать, поспешив объявить сервис на той базе, что есть. Вот еще более показательный пример:

Куда ни плюнь, всюду вечный Путин, особенно в 1937. Я понимаю, логично и в тренде политического момента, хоть дари Суркову для агитационных роликов. Но как так получилось? Оказывается, половина ошибок — неправильные датировки книг, что весьма непростительно. Это же не индексация сайтов, это ручное создание библиотек, можно же было навести там порядок и не датировать 1800 годом всякие публикации о ельцинских премьер-министрах? Ну а в остальном дореволюционный Путин представляет собой куски слов пополам с ошибками сканирования:

Либо просто авторские опечатки:

Мораль: хотелось бы качественных инструментов по анализам текстов, которым можно было бы доверять. Но пока качество подобных штук даже у Гугля скверное.

<< предыдущая заметка следующая заметка >>
пожаловаться на эту публикацию администрации портала
архив понравившихся мне ссылок

Комментарии к этой заметке сейчас отключены, надеюсь на понимание.