Google-поиск по текстам книг

Google-поиск по текстам книг

24.12.2010

Используя 5,2 миллиона отсканированных изданий из библиотеки интернет-гиганта, ученые разработали инструмент для обширных лингвистических исследований.

Летом компания Google объявила о том, что будет оказывать финансовую поддержку специалистам, планирующим использовать в своей исследовательской работе оцифрованные в рамках Google Books издания. Результаты одного из подобных исследований, которым занимались сотрудники Гарвардского университета, были представлены в середине декабря. Подробности описаны в статье, опубликованной в журнале Science, а сервис Ngram Viewer предложен для использования всем желающим.

Как сообщают исследователи, базой для разработки нового сервиса стали 5,2 миллиона книг, написанных на английском, французском, испанском, немецком, китайском и русском языках и изданных начиная с 1500 до 2008 года. Это примерно треть всей электронной библиотеки Google и около 4% из когда-либо опубликованных книг. Ученые составили подборку всех использованных в этих изданиях слов (около 500 миллиардов) и доработали алгоритм анализа этого материала на основе поисковой системы Google.

Теперь с помощью Ngram Viewer любой желающий может выяснить популярность различных слов и фраз, которые встречались в книгах за последние 500 с лишним лет. Информация будет представлена в виде графиков, а издания, в которых встретилось искомое слово, в хронологическом порядке отслеживаются непосредственно по базе книг Google Books. Фрагменты в текстах будут выделены, как и при традиционном поиске по этой электронной библиотеке. Область поиска можно ограничить определенным историческим периодом и конкретным языком.

Авторы и их коллеги полагают, что новый инструмент станет хорошим подспорьем для серьезных лингвистических исследований. Однако широкую интернет-аудиторию новая «игрушка», как водится, тоже весьма заинтересовала.

 

 

Оригинал новости: Pro-Books.ru

Подписаться на наши новости