Приложения в биологии: анализ генетических данных
Как уже было указано в разделе1.1, задача бикластеризации в последние годы приобрела большую популярность в связи с растущей потребностью в анализе генетических данных. Почти каждая работа в этой области, описывающая новый алгоритм бикластеризации, содержит раздел посвященный экспериментам на реальных данных.
Приведем несколько примеров. Ченг и Черч в работе [25] применяют бикластеризацию к двум матрицам генной экспрессии, а именно, к данным, описывающим клетки дрожжей (Yeast Saccharomyces Cerevisiae) для 2884 генов и 17 условий, и к данным о B-клетках человека (B-cells) для 4026 генов и 96 условий. Танг и др. [78] применяют алгоритм ITWC к данным генной экспрессии с 4132 генами и 48 примерами пациентов множественного склероза, а Бен-Дор и др. [16] используют данные о раке груди для 3226 генов при 22 различных экспериментальных условиях.
Напомним, что основная задача такого анализа — выявление групп генов, проявляющих сходное поведение только при определенных условиях. В дальнейшем специалист генетик на основании проведенного анализа выдвигает гипотезу о том, является ли данная группа генов причиной исследуемой болезни.
Помимо данных генной экспрессии, в качестве приложений в биологии можно привести пример из работы Лиу и Ванга [53], которые анализировали активность лекарственных препаратов на матрице из 10000 строк и 30 столбцов, в которой каждой строке соответствовало химическое вещество, а столбцы представляли его признаки.
В сообществе рассматриваются и другие массивы генетических данных, в основном относящихся к раковым заболеваниям, таким как лимфома.