Чтение онлайн

ЖАНРЫ

Журналистское расследование

Коллектив авторов

Шрифт:

Кроме того, широко применяется комбинированный способ, когда каждому документу из массива вручную, в соответствии с правилами, присваивается некоторый набор дескрипторов, характеризующих содержание документа, раскрывающих его смысл, назначение и т. д. Эти дескрипторы при сплошном просмотре массива документов также включаются в список встретившихся слов. Данный метод нередко используют для организации работы поисковых машин в Интернете и в полнотекстовых справочных правовых системах, таких как «Консультант Плюс» и др.

Перечисленные способы отличаются еще по одному параметру: поиск только с помощью дескрипторов, как правило, очень точно выделяет нужные документы, хотя некоторые из них могут не попасть в выборку из-за недостатков систематизации или предметизации. Правильно сформулированный контекстный поиск даст все нужные документы – но, к сожалению, и большое количество ненужных (велик «информационный шум»).

Для изменения результатов поиска (расширения или сужения) могут применяться специальные операторы:

• замены символа: (одного) или * (нескольких);

• усечения слова (слева, справа);

• больше, меньше, равно;

• операторы буквального соответствия;

• операторы диапазона значений;

• логические операторы: И (и то и это), ИЛИ (или то, или это, или оба вместе), НЕ, исключительное ИЛИ (или только то – или только это);

• операторы близости расположения и порядка следования слов.

Может задаваться старшинство операторов (как в алгебраических выражениях, с помощью скобок).

Развитые системы поиска и базы данных позволяют сохранять результаты поисков и не только производить логические операции над выражениями, но и комбинировать с помощью логических операторов результаты предыдущих поисков, уточняя и дополняя запрос сколь угодно долго, вплоть до получения удовлетворительного результата.

Об информационно-поисковых языках

Поиск информации в некоторой системе и ее ввод в систему – две стороны одной медали. При вводе информации (создании справочника, каталога, ведении базы данных, сайта в Сети, упорядочивании массива документов по каким-либо правилам) всегда имеют в виду особенности организации поиска в этой системе, применяемый информационно-поисковый язык, для чего и приспосабливают ее структуру, организуют справочный аппарат, ссылки в Сети. При поиске информации всегда нужно иметь в виду, каким образом она попадает в систему, чем при этом руководствуются, как организована конкретная запись, как информацию предметизируют, систематизируют, индексируют.

Как происходит присвоение дескрипторов документу (предметизация или систематизация)? Имеется набор правил предметизации документов, которые применяются в библиотеках, существуют также списки предметных рубрик, в которые со временем вносятся изменения. Все это может применяться в работе журналиста. Имеются также два набора таблиц систематизации – ББК (Библиотечно-библиографическая классификация) и УДК (Универсальная десятичная классификация). Они опубликованы в краткой и полной форме и легкодоступны. Во многих случаях (указателях, базах данных и т. п.) применяются нестандартные схемы предметизации или, реже, систематизации, «заточенные» под конкретную задачу. Никто не мешает журналисту взять готовую систему и внести в нее необходимые изменения и уточнения. Нужно, однако, иметь в виду, что, чем бoльшие изменения будут внесены в стандартную общепринятую схему, тем бoльшие трудности могут возникнуть при попытке обмена информацией и при использовании системы сторонними лицами.

В сети Интернет также применяются особые правила присвоения дополнительных поисковых терминов электронным документам. Отчасти они определяются языком гипертекстовой разметки документов, отчасти – традицией и этикетом, а кроме того – требованиями, которые предъявляют конкретные поисковые машины к оформлению индексируемых ими документов.

Примеры индексирования документов в конкретной и биографической базе данных

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Шмелев К. С металлом в голосе // Мир денег. – 1998. – 15 апр. – С. 2.

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор Св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор Св. апостолов Петра и Павла.

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Поделиться с друзьями: