Past Meetup

[Moscow] Полнотекстовый поиск: рецепты от разработчиков. Встреча в ГАИШ МГУ

This Meetup is past

111 people went

Details

Большая тема очередной встречи — полнотекстовый поиск.

Планируется выступление Фёдора Сигаева и Артура Закирова:

Полнотекстовый поиск существует в PostgreSQL достаточно давно, но продолжает развиваться. Тем не менее, многие продолжают использовать его в том стиле, как это делалось в начале века. Чтобы рассказать о том, как это делается сейчас, мы проводим этот семинар. Расскажем о том, как организовать полнотекстовый поиск по вашему массиву текстов на примере простого научно-популярного Web-сайта. Покажем фасетный поиск, расскажем о новинках свежей версии постгреса, покажем новый индекс RUM, и объясним, зачем он нужен.

Будет замечательно, если вы придете со своими вопросами и задачами - мы постараемся ответить вам на месте. Если можете, присылайте вопросы заранее, чтобы мы включили ответы в своё выступление.

***

Дополнительный доклад (15 минут):

Андрей Коваленко, тема: «Грязная математика и квалифицированный кворум запроса»

При реализации полнотекстовых поисковых систем наиболее важными представляются два разительно различающихся вида запросов:
• поиск точного вхождения фразы;
• поиск наиболее полного, и при этом наиболее компактного вхождения поискового запроса в документ, или нечёткий поиск.
И если с первым типом поиска всё очевидно – следует лишь чётко отработать строгий логический запрос с учётом координат слов в документе, в идеале не проигнорировав предлогов и запятых, то второй тип поиска в реализации гораздо сложнее.
Он предусматривает, с одной стороны, богатую комбинаторику, а с другой – определённый набор не совсем честных математических преобразований и достаточно вольную трактовку физического смысла операций.
В масштабированных же системах, работающих с формально однородными текстами, модерируемыми или нет, эта задача осложняется дополнительно.
В докладе представлены реализованные и обкатанные на реальных массивах способы качественного вычисления нечётких запросов с минимальной дополнительной нагрузкой на кластер поисковой машины.

***

Приветствуются блиц-доклады — короткие (5-10 мин) рассказы о проектах, так или иначе связанных PostgreSQL (не обязательно про полнотекстовый поиск).
Есть идея? Пишите: [masked]

Как добраться:

На метро: до станции "Университет", далее пешком вдоль проспекта Вернадского в сторону Центра или 3 остановки на 28-м троллейбусе.

На автомобиле: Ехать по Университетскому проспекту в направлении от Мичуринского проспекта к проспекту Вернадского. Въезд в чугунные ворота со стороны Университетского проспекта – последний перед перекрестком с проспектом Вернадского. На схеме въезд отмечен стрелкой.