ЖАНРЫ

Аналитика: методология, технология и организация информационно-аналитической работы

Конотопов Павел Юрьевич

Шрифт:

Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином виде задачи статистического анализа данных, и реализованные для различных операционных систем.

Среди западных универсальных пакетов наиболее известны и выделяются высоким качеством системы SAS (SAS Institute), SYSTAT, SPSS [69] (SSPS Inc.), Minitab (MiniTab Inc.), Statgraphics (Manugistics, Inc.), Statistica (StatSoft, Inc.). Все эти продукты реализованы на высоко профессиональном уровне, а их производители активно осваивают все новые и новые «ниши» аналитики, обращаясь к технологиям анализа текстов, интеллектуального анализа данных, операционному анализу и иным отраслям, связанным с анализом данных. Заметим, что в последние годы усиливается тенденция к специализации по отраслям — на базе основной версии выпускаются программные продукты, адаптированные к решению задач в медицине, экономике и т. д.

69

Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Пер. с нем. — М.: Диасофт, 2001.

Особый класс программного обеспечения, представленного на рынке, — это специализированные библиотеки подпрограмм обработки данных, предназначенные для встраивания в прикладные программные продукты, разрабатываемые силами собственных отделов автоматизации организаций, нуждающихся в проведении тех или иных исследований. В этом классе несомненными лидерами являются библиотека численных и статистических методов IMSL (Visual Numerics) и библиотека S-Plus (AT&T Bell Labs), сочетающая в себе как библиотеку подпрограмм, разработанных на объектном языке программирования S, так и интерактивную среду-интерпретатор, которая обеспечивает возможность полноценного графического анализа данных. Кроме того, существует масса других библиотек, в том числе, и бесплатно распространяемых через ГСТК Интернет.

Следует заметить, что в СНГ также интенсивно развивается направление, связанное с разработкой программного обеспечения для статистической обработки данных. К классу полу-универсальных могут быть отнесены российские пакеты STADIA [70] (НПО «Информатика и компьютеры»), ОЛИМП (ЗАО «CPS») и белорусский пакет РОСТАН (Белорусский Государственный Университет). Имеются примеры создания специализированных систем для решения задач классификации и снижения размерности, например: КЛАСС-МАСТЕР (Научное изд-во «ТВП»), КВАЗАР (ИММ УрО РАН), PALMODA (ВЦ РАН), Stat-Media (ЗАО «Полихимэкс») и иные. Кроме того, на рынке представлены и статистические экспертные системы, например, СТАТЭКС (РМ и ПК, Казахстан).

70

Кулаичев А.П. Методы и средства анализа данных в среде Windows. Изд. 3-е, перераб. и доп. — М: ИнКо, 1999. — 341 с., ил., 3000 экз. ISBN 5-89357-016-2.

Довольно интересный класс программного обеспечения представляют собой системы, ориентированные на решение задач снижения размерности, классификации и анализа данных. Эти системы используют комбинацию методов статистической и нейросетевой104 обработки данных. В этой области столь эффективно работают такие гиганты, как SAS (серия продуктов SAS Data and Text Mining) и SPSS, создающие программные продукты, сочетающие мощь статистических методов обработки с методами нейрокомпьютинга. Среди наших разработчиков следует отметить ВЦ РАН (ЛОРЕГ), ЗАО «Megaputer» (система PolyAnalyst), НПИЦ «Микросистемы» (система TextAnalyst), фирму «Контекст» (пакет «ДА-система») и «MediaLingua» (система Классификатор).

Следует помнить, что сами по себе результаты статистической обработки и статистические данные, без модели их интерпретации, лишены какой бы то ни было ценности. Для аналитика крайне важны не просто некоторые наборы величин (рождаемость ли, стоимость ли «потребительской корзины»), а их динамика во времени, модель эталона или нормы, используемая при проведении анализа, точность и тому подобные сведения.

Рассмотренные ранее классы систем, увы, не могут претендовать на роль аналитика, поскольку таковых моделей не продуцируют. Все эти системы, сколь бы совершенны они ни были, продуцируют лишь данные. Заметим, что человечество уже приблизилось к тому рубежу, когда встала проблема измерения стоимости информационных продуктов типа «знание» и «модель». Именно они определяют функциональные возможности программного обеспечения, стоимость которого на самом деле относительно легко исчислить. Для продуктов же, именуемых этими словами, такой расчет произвести крайне сложно — проблем здесь существует масса: от определения авторства (особенно при коллективной научной деятельности) — до определения реального социально полезного времени, затраченного на синтез нового знания.

В настоящее время на Западе ведутся активные философские (и не только философские, но и с привлечением менеджеров в области научных изысканий и информационного бизнеса) дискуссии на эту тему, вызванные изменением экономических и, прежде всего, социальных приоритетов. Тема, сама по себе, интересная, но она лежит за рамками обсуждаемой в этой книге тематики.

9.8 Инструментальные средства представления и доведения результатов ИАР

Средства представления и доведения результатов ИАР до потребителя образуют весьма своеобразный класс инструментальных средств, находящихся «на вооружении» аналитика. С одной стороны, они имеют много общего со средствами визуализации и отображения данных, и лишены «самостоятельности», поскольку часто интегрированы в иные инструменты. Но если взглянуть на эти средства с другого ракурса, то убеждаешься в том, что это совершенно самостоятельный комплекс инструментов.

Да если попытаться классифицировать эти системы по типу данных, которые должны быть представлены посредством этих систем, то получится довольно жалкая картина: получим спектр от видео до аудио с переходом через мультипликацию, неподвижную графику, текст и бегущую строку.

Символьные и не символьные данные, статические и динамические… Становится ясно, что речь идет о предельных возможностях подсистемы отображения, поскольку именно ее возможности определяют то, в каких сочетаниях эти данные могут быть представлены потребителю. До изобретения граммофона, кинематографа и способа построчного считывания графических данных речи о динамике и быть не могло. Ну, а когда была изобретена электронно-лучевая трубка, подвижная графика стала приобретать все большее значение. Компьютерные системы, сменив принцип отображения данных (отказавшись от знакосинтеза в пользу графики), позволили совершить резкий скачок от прежних способов представления результатов анализа к новейшим, использующим гипертекстовую технологию. Именно они сделали возможным, оптимальным способом сочетая все эти типы данных, быстро и дешево создавать документы, обладающие высокой выразительностью.

Итак, какие инструменты подготовки отчетной документации, представления и доведения результатов работы до потребителей имеются в распоряжении аналитика? Перечислим по группам:

1. Средства поиска данных и подбора аргументации:

— поисковые программы (MS Fast Find (поиск файлов), Следопыт, поисковые машины ГСТК Интернет и т. д.);

— системы сканирования графики и распознавания текстов (сканеры, ABBY Fine Reader, CuneiForm и др.);

— системы автоматического перевода (Magic Goody, Promt, Socrat, Stylus и др.);

— системы автоматического реферирования и классификации (TextAnalyst, TextMiner и др.).

2. Стандартные средства разработки текстовых документов:

— обычные и профессиональные текстовые редакторы и процессоры (MS Word, TeX, Lexicon, Adobe PageMaker и др.);

— табличные процессоры (MS Excel, Lotus Notes и др.);

— интеллектуальные редакторы (поиск и подбор синонимических пар + эмоциональная аттестация — программы «Приемы журналистики и public relations», «HeadLiner/Заголовщик» фирмы TRIZ Chance);

— редакторы формул (TeX, LaTeX, MathType и др.);

— графические редакторы (Adobe PhotoShop, Adobe Illustrator, Corel Draw и др.).

3. Средства эмоциональной аттестации документов:

— средства контент-анализа текстов (V AAL и др.);

— интеллектуальные редакторы с элементами контент-анализа.

4. Средства иерархического упорядочения данных:

— системы протоколирования рассуждений типа майнд-мэпперов;

— системы автоматизированнной классификации и реферирования.

5. Средства разработки гипертекстовых документов:

— редакторы с поддержкой языков гипертекстовой разметки SGML, XML и HTML с сетевой ссылочной структурой и поддержкой мультимедиа;

— текстовые процессоры последних поколений (в том числе, MS Word).

6. Средства генерации стандартных формализованных отчетов:

— стандартные генераторы отчетов СУБД;

Поделиться с друзьями: