СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Кластерный подход как способ восстановления биогеохимических потоков в искусственных экосистемах.

Категория: Биология

Нажмите, чтобы узнать подробности

Просмотр содержимого документа
«Кластерный подход как способ восстановления биогеохимических потоков в искусственных экосистемах.»

Раздел: Наука об окружающей среде. Современные методы поддержания устойчивости биогеоценозов и искусственных экосистем.


Тема 7: «Кластерный подход как способ восстановления биохимических потоков в искусственных экосистемах».

В настоящее время экологические системы рассматриваются как структурные единицы («ячейки») биосферы, которая является единым целым, а ее части (экосистемы), обладая известной автономией, тесно

взаимосвязаны друг с другом. Биогеопотоки, переносящие вещество и энергию из одних экосистем в другие, исключают возможность их изолированного существования и создают своеобразную непрерывность (континуум) всей биосферы. Экосистемы характеризуются определенным уровнем структурной и функциональной организации. Их структурированность определяется особенностями пространственного распределения взаимосвязанных между собой косных и живых компонентов и градиентностью термодинамических характеристик по горизонтали и вертикали на суше, в гидросфере и в атмосфере. Функциональная организация экосистем проявляется в согласованности процессов, обеспечивающих круговорот веществ, протекание биогеохимических циклов. В результате функционирования экосистем происходят непрерывная миграция атомов, осуществляющаяся в форме биогеохимических циклов, и новообразование органических веществ из минеральных, в основном за счет трансформации и аккумуляции в экосистемах солнечной энергии и в меньшей степени за счет хемосинтеза органических веществ микроорганизмами.

В процессе функционирования экосистем возникают предпосылки их преобразования, так как неполная нейтрализация воздействия на среду одних популяций другими ведет к изменению свойств биотопа и обусловливает адаптивную перестройку сообщества. Точно так же функционирование измененного сообщества оказывается причиной его дальнейшего изменения.

В свою очередь биологические особи (или индивидуумы), будь то многоклеточные растения и животные или микроорганизмы, сразу же после своего появления на свет включаются в сложную цепь взаимодействия с окружающими их другими организмами и средой. Более того, они сами воздействуют на среду своего обитания, меняя ее в том или ином направлении. Экология изучает все эти взаимодействия в совокупности, т.е. она изучает вопросы о том, как сообщества живых организмов, используя органические, минеральные и энергетические ресурсы, создают новое органическое вещество, как это вещество распределяется между другими организмами в системе и каким образом оно в конце концов вновь распадается на свои минеральные компоненты. При этом необходимо понять, за счет каких механизмов создается и поддерживается удивительная стабильность природных комплексов, что обеспечивает сохранение и изменение их пространственно-временной структуры, какими факторами определяются их развитие и эволюция. Все многообразие этих проблем от изучения надорганизменного уровня функционирования биосистем до исследования структуры связей между организмами и их средой невозможно решить без привлечения методов экосистемного анализа. Подход к изучению экосистем на системном уровне включает комплексное изучение всех ее элементов с качественной точки зрения, различные количественные методы изучения, такие как статистические и математические методы, метод моделирования. И здесь главная проблема, которая встанет перед исследователем, это получение достоверных количественных данных на основе исследований по всем живым и косным компонентам с учетом динамики их изменения в сезонных и межгодовых аспектах.

Биогеохимический цикл (круговорот веществ) — система незамкнутых и необратимых круговоротов веществ в биотических (биосфера) и абиотических (литосфера, атмосфера и гидросфера) частях Земли. Этот повторяющийся процесс взаимосвязанного преобразования и перемещения веществ в природе имеет циклический характер и происходит при обязательном участии живых организмов и часто нарушается человеческой деятельностью. Является основным свойством, характерной чертой биосферы.

Наибольшее значение в биогенном цикле имеют такие циклы:

круговорот воды круговорот азота круговорот углерода

круговорот серы круговорот фосфора

Искусственные экосистемы — экосистемы, созданные человеком.

Агроценоз — искусственная экосистема, созданная человеком для получения сельскохозяйственной продукции.

Они занимают в настоящее время около 10 % территории суши.

Агроценозы отличаются от природных биогеоценозов по ряду признаков.

Во-первых, по источникам энергии. Если природные экосистемы получают только энергию солнца, в агроценозах человек использует дополнительные источники энергии для внесения удобрений, рыхления почвы, борьбы с сорняками и т. п.

Во-вторых, в агроценозах сильно снижено видовое разнообразие организмов. Это является следствием искусственного отбора, проводимого человеком. С одной стороны, человек размножает высокоурожайные сорта определенных видов, с другой, постоянно борется с нежелательными видами, называемыми сорняками и вредителями.

Третье различие состоит в том, что в природном биогеоценозе происходит замкнутый круговорот веществ, а из агроценозов человек регулярно изымает часть вещества в виде сельскохозяйственной продукции. Это приводит к необходимости вносить удобрения для компенсации забранных веществ.

По этим причинам экологическая устойчивость агроценозов невелика. Они не способны к саморегуляции и самовозобновлению, подвержены угрозе гибели при массовом размножении вредителей или возбудителей болезней. Поэтому без участия человека агроценозы зерновых и овощных культур существуют не более года, многолетних трав — 3–4 года, плодовых культур — 20–30 лет. Затем они распадаются или отмирают. На их месте начинается сукцессия (смена биогеоценоза), приводящая к образованию устойчивого на данной территории биогеоценоза.

Кластерный анализ— многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач.

Кластерный анализ выполняет следующие основные задачи:

  • Разработка типологии или классификации.

  • Исследование полезных концептуальных схем группирования объектов.

  • Порождение гипотез на основе исследования данных.

  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

  • Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.

  • Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.

  • Вычисление значений той или иной меры сходства (или различия) между объектами.

  • Применение метода кластерного анализа для создания групп сходных объектов.

  • Проверка достоверности результатов кластерного решения.

Типы входных данных

  • Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.

  • Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов метрического пространства.

  • Матрица сходства между объектами. Учитывается степень сходства объекта с другими объектами выборки в метрическом пространстве. Сходство здесь дополняет расстояние (различие) между объектами до 1.

Цели кластеризации

  • Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).

  • Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

  • Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии. Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому.

В биологии и экологии

В биологии кластеризация имеет множество приложений в самых разных областях. Например, в биоинформатике с помощью неё анализируются сложные сети взаимодействующих генов, состоящие порой из сотен или даже тысяч элементов. Кластерный анализ позволяет выделить подсети, узкие места, концентраторы и другие скрытые свойства изучаемой системы, что позволяет в конечном счете узнать вклад каждого гена в формирование изучаемого феномена.

В области экологии широко применяется для выделения пространственно однородных групп организмов, сообществ и т. п. Реже методы кластерного анализа применяются для исследования сообществ во времени. Гетерогенность структуры сообществ приводит к возникновению нетривиальных методов кластерного анализа (например, метод Чекановского).

В общем стоит отметить, что исторически сложилось так, что в качестве мер близости в биологии чаще используются меры сходства, а не меры различия (расстояния).

«Кластер — в глазах смотрящего»

Теперь разберемся с базовыми понятиями в области кластерного анализа. А также с тем, почему с ними не всегда все понятно. Итак, термин кластерный анализ объединяет в себе множество статистических методов. Их общая задача — выявление естественной группировки (либо группировок) для некоторой совокупности объектов. Основой названия этой совокупности методов послужило английское слово cluster, используемое не одну сотню лет. Его исходное «тривиальное» значение сохранилось в современном языке: в этом случае cluster означает «совокупность близко расположенных объектов или людей». Возможны следующие варианты его перевода на русский: «группа», «скопление», «гроздь», «пучок» и т.д.

Что же означает термин «кластер» в контексте кластерного анализа? Удивительно, но формального и строгого определения этого центрального понятия не существует. По-видимому, так будет и дальше: принято считать, что термин «кластер» субъективен по своей природе и зависит не только от контекста конкретной задачи, но и от запросов и ожиданий пользователя. Что совсем уж субъективно... Особенных затруднений это не вызывает: значение термина интуитивно, а его практическое применение возможно и без строгого определения (как, например, в случае понятия «точка» в геометрии). Чаще всего кластер определяется своей компактностью (большим сходством входящих в него объектов) и изолированностью (непохожестью представителей разных кластеров).

Под естественной группировкой понимается такая, которая основана на объективной близости объектов и полностью определяется их собственными характеристиками. В целом проблема кластеризации сводится к выявлению этой группировки.

Входными данными для кластеризации служит множество объектов, наблюдений или замеров. Это могут быть не только численные значения, но и категориальные, то есть качественные показатели вроде цвета или наличия/отсутствия определенного морфологического признака.

Ожидаемый результат — разделение набора данных на подмножества, называемые кластерами. Число таких подмножеств должно быть невелико, а сами объекты — возможно более схожими внутри кластеров и как можно сильнее различными, если принадлежат к разным кластерам. Главное отличие кластеризации от классификации (группирующего обучения с учителем) состоит в том, что перечень групп исходно не задан и определяется самим алгоритмом.

Важно помнить, что неопределенность и необходимость действовать «по наитию» возникает едва ли не на каждом этапе кластеризации. Не помешает рассмотреть эти неопределенности, а заодно и сами шаги:

Формирование выборки объектов и определение целевых переменных.

Расчет меры близости.

Группировка, то есть собственно получение кластеров.

Представление результатов.

А теперь поподробнее:



Формирование выборки объектов и определение целевых переменных. Этo этап биоинформатической «пробоподготовки». Прежде всего необходимо определить круг наблюдений/объектов/пациентов/клеток/сообществ/... , которые подвергнутся кластерному анализу.

Расчет меры близости. Этот шаг кластерного анализа включает определение сходства имеющихся объектов.

Выбор подходящего способа вычислить расстояния между объектами становится очередной плохо формализуемой задачей — и снова пользователю пригодятся экспертиза, чутье, пробы и ошибки. После этих вычислений мы будем иметь матрицу расстояний. В отличие от фильма со сложным экзистенциальным смыслом, в математике под матрицей понимают просто прямоугольную таблицу чисел. В нашем случае она и вовсе квадратная (N×N) — описывает значения для всех пар N наблюдений.

Здесь же, при переходе матрицы расстояний к собственно распределению объектов по кластерам, нужно установить их надлежащее количество k. В дальнейшем это может значительно изменить результаты анализа. Что же мы можем предпринять в этой связи? Получив иерархическую кластеризацию (которая не требует исходно заданного k) и изобразив ее в виде дендрограммы, мы получаем возможность прикинуть, сколько кластеров выделить будет более естественно. Есть и более формальные способы — среди них наиболее распространен «метод локтя» (elbow rule). На соответствующем графике по оси X откладывают рассматриваемое число кластеров, по оси Y — своеобразный «показатель их качества». Перегиб этого графика — локоть — позволяет оценить заветное k.

Группировка, то есть получение кластеров. Собственно тот этап, для которого существуют все остальные. В результате наши наблюдения оказываются распределенными по группам-кластерам. Различия между методами и алгоритмами кластерного анализа затрагивают прежде всего этот шаг. В случае плоских методик здесь следует просто распределить все имеющиеся наблюдения по кластерам, повторяя эту процедуру для достижения возможно наилучшего результата. Приближает наше разбиение оптимизация определенного параметра, который как раз оценивает, насколько этот результат лучше или хуже прочих.

На завершающем этапе кластеризации правила хорошего тона предписывают оценивать качество кластеризации на выходе — установить их валидность.

После того, как мы прошли по стандартному алгоритму шаг за шагом, хотелось бы отметить приятное обстоятельство, отличающее подобные биоинформатические протоколы от «мокробиологических». Почти на каждом этапе у нас есть возможность «откатиться» назад и изменить его в соответствии с полученным опытом. Мы можем неограниченно большое число раз переиграть вычислительный эксперимент или изменить параметры только что проделанного расчета.

Но заканчивать разговор о «кластерной кухне» все же приходится довольно удручающими обобщениями. Размытость и неопределенность неразлучны с этой казалось бы точной математической методологией. Она много шире проблем с терминологией (как его собственной, так и упомянутых выше «перекрывающихся» с биологией понятий). Действительно, изобилие доступных методик, плохо предсказуемое качество результатов, затруднения при выборе используемых признаков объектов, различия в форме кластеров, населяющих данные, окаянный вопрос «а они вообще есть в моих данных?..»

Теперь обратимся к краткой истории кластерного анализа, питая особое пристрастие к его биологическим применениям.

Холера, Сноу!

Во время эпидемии холеры в Лондоне в 1854 г. Сноу в поиске закономерностей распространения этого заболевания в части Лондона, называемой Сохо, начертил соответствующую карту. Он обозначил на ней места проживания заболевших, а также используемые жителями источники воды. Надо сказать, что в то время причиной холеры считали миазмы — потоки зараженного «дурного» воздуха, якобы распространяющегося над городом. Построив свою карту-схему, Сноу заметил: случаи заболевания приурочены к определенным источникам воды и образуют возле них сгущения с общим центром — «кластеры». Врач сделал вывод: холера распространяется с зараженной питьевой водой. Он оказался прав, обеспечив своим открытием колоссальный прогресс в предотвращении этой опасной инфекции.

Очередная веха истории кластерного анализа обычно не упоминается в западных обзорах. В случае литературы на русском языке ей иногда отводят роль первой методики кластерного анализа. Речь идет о трудах советского гидробиолога П.В. Терентьева, который в 1925 году предложил анализировать признаки объектов (не сами объекты!) с помощью метода корреляционных плеяд. Исследователь применял его для анализа сообществ (биоценозов). Метод Терентьева, подобно методу Чекановского, начинается с получения коэффициентов корреляции для исходной матрицы наблюдений (рис. 7б). Далее следует графическое представление — каждый объект изображают в виде кружка, которые соединяют линиями в случае высокой корреляции. Толщина этой линии отображает значение коэффициента (стало быть, и схожесть наблюдений).

Работа для кластеров

В экологии кластерный анализ пригодится, если требуется выявить пространственную и временную структуру сообществ организмов.

В геномике — отыщет группировки близких последовательностей нуклеиновых кислот и семейства консервативных генов, выполняющих схожие функции у самых разных организмов.

Поможет кластерный анализ и при выделении групп людей с определенными генетическими вариациями.

В соседней с биологией медицине эти методы пригодятся, чтобы выделить типы тканей на трехмерных снимках ПЭТ (позитронно-эмиссионной томографии), выявить шаблоны устойчивости к антибиотикам и группировать эти самые антибиотики по типу антибактериальной активности. В онкологии кластеризация полезна, чтобы выделить, распознать и строго локализовать раковые клетки в контексте здоровой ткани.

Очередь за науками о человеке (психология, социология и др.) и гуманитариями. Они развили большое разнообразие приложений кластерного анализа — скажем, для описания черт отдельных людей в области психологии личности или социальных групп. Здесь кластеризация испытывает сильную конкуренцию со стороны своего предшественника — дискриминантного анализа.

Науки о Земле (геология, география, почвоведение и др.) применяют кластерный анализ к отдельным территориям, геологическим формациям, почвам — решая, в том числе, свою любимую задачу районирования.

Наконец, на точном и инженерном краю науки кластерный анализ служит для фрагментации изображений, распознавания образов, анализа различных сигналов вроде текста и аудиозаписей речи, сжатия данных в информатике, хранения и обработки данных и документов, анализа социальных сетей и многого другого.

Однако как быть со всеми проблемами, затруднениями и неопределенностями, неразлучными с кластерным анализом и вместе обозначенными как «дилемма пользователя»? Вряд ли их стоит считать основанием отказываться от этого наглядного и эффективного способа выявить структуру ваших многомерных и больших данных. Особенно биологу — которому к капризной и изменчивой логике не приходится привыкать. Более того, неопределенности и необходимость выбирать — алгоритм кластеризации, способ отложить расстояние между объектами, число кластеров,.. — это простор применить ваши экспертные знания и профессиональное чутье. К тому же неопределенность протокола кластерного анализа не мешает ему оставаться точной вычислительной методикой. И, что очень важно, методикой воспроизводимой. Это означает, что, имея ваш скрипт или иной «сухой» экспериментальный протокол, коллеги и читатели смогут без труда воспроизвести, проверить и изменить его. И эти положительные стороны вместе можно обозначить как мотивирующий «кластерный оптимизм».

15



Скачать

Рекомендуем курсы ПК и ППК для учителей

Вебинар для учителей

Свидетельство об участии БЕСПЛАТНО!