Инструменты и технологии

Материал из MachineLearning.

Перейти к: навигация, поиск

Эта страница помогает сориентироваться в категории Инструменты и технологии, содержащей статьи по программным средствам анализа данных и автоматизации научной деятельности. В этих статьях участники делятся опытом применения различных инструментов и технологий, размещают ссылки на документации и учебные материалы, коллекционируют удачные примеры использования, и т.д.


При добавлении новой статьи в категорию Инструменты и технологии рекомендуется перенести на эту страницу её краткое описание.


Содержание

Системы анализа данных

WEKA — библиотека алгоритмов машинного обучения и интеллектуального анализа данных (data mining). Система позволяет непосредственно применять алгоритмы к выборкам данных, а также вызывать алгоритмы из программ на языке Java. Открытый программный продукт, свободно распространяемый под лицензией GNU GPL.

RapidMiner (прежнее название YALE) — среда для проведения экспериментов и решения задач машинного обучения и интеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейса RapidMiner-а. Может работать и как отдельное приложение, и как «интеллектуальный движок», встраиваемый в другие приложения, включая коммерческие. Включает в себя библиотеку WEKA как подмножество. Открытый программный продукт, свободно распространяемый под лицензией GNU GPL.

Полигон алгоритмов — текущий проект по созданию распределённой системы тестирования алгоритмов классификации на данных реальных прикладных задач.

Matlab — один из самых популярных языков программирования для научных и инженерных расчетов. Matlab, сокращение от «Matrix Laboratory», предназначен в первую очередь для выполнения алгоритмов, использующих векторы и матрицы.

MVR Composer — программа, работающая в системе Matlab. Создает математические регрессионные модели, используя измеряемые данные и экспертные предположения о структуре моделей.

R — свободно распространяемый пакет для матричных вычислений и статистического анализа данных. Во многом конкурирует с Matlab.

SOCR — статистический онлайновый вычислительный ресурс c открытым кодом, доступный онлайн.

Репозитории задач и исходных данных

Репозиторий UCI — крупнейший репозиторий реальных и модельных задач машинного обучения. Cодержит реальные данные по прикладным задачам в области биологии, медицины, физики, техники, социологии, и др. Задачи (наборы данных, data set) именно этого репозитория чаще всего используются научным сообществом для эмпирического анализа алгоритмов машинного обучения.

Базы данных изображений — список баз данных изображений, предназначенных для тестирования алгоритмов распознавания и обработки изображений.

Средства подготовки публикаций

LaTeX — наиболее популярный набор макрорасширений (или макропакет) к системе компьютерной вёрстки TeX.

BibTeX — программное обеспечение для создания библиографических баз и автоматической вёрстки форматированных списков библиографии, используемое совместно с LaTeX'ом.

Средства графической визуализации

ChartLib — библиотека деловой и научной графики для аналитических исследований, генерации графиков в Internet, подготовки графиков для публикаций и отчетов, встраивания графиков в приложения на Delphi и C#. Имеется свободно распространяемая полнофункциональная демо-версия.

Средства автоматизации проектирования и разработки

SourceForge — репозиторий программ, разрабатываемых на условиях открытого доступа к исходному коду (open source). Репозиторий предоставляет удобный интерфейс разработчикам, позволяющий отслеживать версии создаваемых программ (version control), вести список ошибок (bug tracking) и выпускать версии, готовые для использования (file releases).

Другими популярными репозиториями программ, поддерживающими управление версиями и совместую разработчку, являются Google Code и CodePlex.

Ссылки на сравнение подобных репозиториев:

Электронные библиотеки

CiteSeer (ResearchIndex) — открытая электронная библиотека научных статей, главным образом, в области информатики, прикладной математики и технических наук; содержит более миллиона статей с исходными текстами в формате PDF или PS.

Средства автоматизации подготовки конференций

Агора — служба автоматизации создания, размещения и поддержки интернет-страниц конференций. Предоставляет возможность создания интерактивных динамических сайтов научных конференций и семинаров с минимальными затратами на разработку и поддержку.

mmro.styLaTeX-овский стилевой файл для вёрстки сборников трудов конференций и отслеживания процессов корректуры, рецензирования и приёма статей.

Личные инструменты