Что такое стемминг и зачем он нужен
Под термином «стемминг» понимается нахождение стеммы – основы того или иного слова. Стемм отражает лексический смысл. К примеру, у прилагательного «вечерний» стемма будет «вечер», «барный» – «бар» и т.д. Как правило, при стемминге не учитываются суффиксы и окончания.
Однако язык русский и его слова обладают достаточно сложной структурой, по этой причине стемминг зачастую используется в комбинации с иными алгоритмами лингвистики, к примеру, с лемматизацией.
Зачем нужен стемминг
В первую очередь, стемминговые алгоритмы активно используются поисковиками, т.е. поисковыми системами (Яндекс, Гугл, Рамблер и т.д.). Пользуясь ими, роботы систематизируют запросы интернет-пользователей и улучшают релевантность (соответствие) выдачи. Стемминг дает им возможность выделять не только термины и фразы из поискового запроса, но и всевозможные их формы, представляющие потенциальный интерес для интернет-пользователя.
К примеру, пользователь ввел в поисковую строку слово «собачий», после чего перед его глазами появились интернет-странички, на которых содержится слово «собака». Конечно, тут учитываются и прочие факторы, включая поведенческие, LSI и др.
Также стеммингом часто пользуются веб-разработчики и программисты для создания автономных поисковиков на сайтах. Специалисты по СЕО-продвижению задействуют соответствующие алгоритмы для наращивания трафика и разработки семантического ядра.
Программы и алгоритмы
Для оперативной идентификации основ слов используется специализированное ПО – стеммеры. Их сегодня существует немало, платных и бесплатных, онлайн и загружаемых. Все эти программы базируются на двух алгоритмах.
Алгоритм №1 – использование особых таблиц в ПО, в которых указаны стеммы и слова. Алгоритм точный и быстрый, но незнакомые слова выделять не может, а также достаточно требователен к ресурсному обеспечению.
Алгоритм №2 – устранения окончаний и суффиксов по ряду правил. Алгоритм легкий и быстрый, может работать с новыми словами. Из его «минусов» следует выделить частые ошибки.
Наиболее популярным стеммером сейчас считается Mystem от нашего любимого Яндекса. С 1998 г. это ПО продолжает совершенствоваться и выдавать качественный результат.
Кстати, именно этой прогой нередко пользуются оптимизаторы студии контента «Textaliya.ru». Поэтому на выходе у них получаются максимально качественные тексты, способствующие продвижению.