Методы бикластеризации для анализа интернет-данных


Введение - часть 3


Далее для такого множества понятий строится их иерархия, представляющая собой полную решетку, называемую решеткой понятий. Существует ряд работ, исследующих возможности "ослабления" требований к определению формального понятия, например, шумоустойчивые понятия (в смысле []). Необходимость такого рода ослаблений вызвана жесткой структурой формальных понятий, требующей наличия всех признаков из содержания понятия у объектов его объема, однако в случае наличия шума возможны "выпадения" некоторых признаков из содержания понятия.

В работах [,] предложен подход, использующий нечеткие решетки понятий, в котором значения исходных данных лежат в диапазоне [0, 1]. Причина, по которой целесообразно использование нечетких решеток — возможность более точного описания исходных данных, например, частоты посещения пользователем веб-сайта. Еще одним желательным требованием является сокращение числа таких бикластеров, так как при применении подхода ФАП их количество экспоненциально растет от размера входа. Отчасти проблема порождения большого числа формальных понятий решена путем введения индекса устойчивости формального понятия []. В этом случае из множества порожденных понятий отбираются те из них, для которых индекс устойчивости превышает некоторый заданный порог. Проблемы отбора релевантных задаче формальных понятий (бикластеров) также обсуждаются в рамках работы.

Что касается моделей "бокс-кластеризации", описанных в [], то для них характерно наличие сходного подхода и параметров, которые используются для выявления шумоустойчивых понятий []. Для моделей этого типа также характерно наличие перекрытий или пересечений бикластеров, степень которых оказывается существенной при решении ряда задач. В задачах бикластеризации, решаемых генетиками, используется похожий аппарат, но не всегда значения входной матрицы являются булевыми, как в работе [], в большинстве случаев они положительные вещественные (например, метод OPSM [] ). Это, в свою очередь, приводит к использованию статистических свойств данных при построении моделей (см. []). У большинства из этих методов, применяемых в биоинформатике, имеются похожие недостатки, например, проблема определения числа кластеров, проблема локального оптимума вследствие использования жадной стратегии поиска [].




Начало  Назад  Вперед



Книжный магазин