Участник:Raistlin/Литература

Материал из MachineLearning.

Перейти к: навигация, поиск

1) Сегалович И.В. Спамооборона

В статье дается обзор методов борьбы со спамом и способами его доставки. Объясняется, почему невозможно построить Идеальный Спам-Фильтр. В заключение приводится идея алгоритма "Супершингл Яндекса" (являющегося модификафией классического метода шинглов А. Бродера), используемого для поиска почти дубликатов.


2) Сегалович И.В. Как работают поисковые системы

Обзор различных методов и подходов информационного поиска. Рассказывается про инвертированные файлы, упоминается использование алгоритма шинглов для исключения из поиска "очень похожих документов".


3) Python: Алгоритм Шинглов — поиск нечетких дубликатов текста

Алгоритм шинглов для веб-документов

В двух статьях "на пальцах" разбирается алгоритм шинглов, для наглядности приводится упрощенная реализация на Python.


4) Зеленков Ю.Г, Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов

Приводятся описания различных методов поиска дубликатов (в том числе и алгоритм шинглов) и их оценка качества.


5) Астапова О. П. Исследование и разработка методов нормализации слов русского языка

Рассмотрены три алгоритма стемминга - Snowball (стеммер Портера), Stemka, Mystem (разработка Ильи Сегаловича)

Личные инструменты