На чем основывается эффективность поиска

15.10.202316.06.2023 admin 0 Comments

Электронная библиотека

Средством, с помощью которого люди передают информацию, является язык. Словосочетания являются материальной формой представлений и понятий. Представления – это чувственно-наглядные образы реального мира. Логически осмысленные представления об объектах реального мира образуют понятия. Развиваясь, общество сформировало естественный язык. Но поскольку различные слои общества имели различные степени общности представлений, возникла многозначность слов естественного языка: одни и те же слова приобретали множество различных значений. Это сформировало общие недостатки естественного языка с позиции оценки эффективности поиска информации. Этими недостатками являются избыточность и недостаточность.

Избыточность проявляется в следующем:

· главную роль при передаче текста играют только ключевые слова. Другие слова можно отбросить без ущерба для понимания смысла;

· естественный язык содержит синонимы – слова, отличающиеся по звучанию и написанию, но близкие по смыслу;

· имеется возможность выразить одну и ту же мысль словами, не являющимися синонимами, например «извлечения корня квадратного из пяти» – «возведение пяти в степень одна вторая».

Недостаточность проявляется в следующем:

· естественный язык содержит омонимы – слова, совпадающие по звучанию и написанию, но различающиеся по смыслу;

· имеется возможность пропуска в тексте подразумеваемых слов.

При составлении запроса необходимой информации о предметной области, пользователь исходит из своих представлений об объектах, свойствах и отношениях в этой области. Пользуясь естественным языком при составлении запроса, пользователь нагружает его определенным смыслом. Работы в области машинного перевода показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком.

В связи с необходимостью облегчения поиска в больших массивах текстовой информации, стали строиться информационно-поисковые системы – системы,

предназначенные для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области. В таких системах документы описывались с мощью специальных поисковых языков.

Недостатки естественного языка не дают возможность поисковым системам отвечать на поставленный вопрос, а выдают пользователю документы, в которых может содержаться ответ на запрос. Для нахождения ответа пользователю необходимо самому просмотреть предоставленные документы.

Выделяют ИПС двух типов:

1) фактографические. Информационно-поисковые системы фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов и процессов, например, сведения о работниках, предприятиях, акционерах и т.д.;

2) документографические. Они отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, обзоры, журналы, книги и т.д.

Информационно-поисковые системы состоит из следующих обеспечивающих подсистем:

· лингвистического обеспечения, включающего в свой состав информационно-поисковый язык;

· технического обеспечения системы, включающего ЭВМ и устройства создания, хранения, чтения и размножения копий на бумажных носителях, в микроформатах и электронной форме;

· информационного обеспечения, состоящего из баз данных документов, баз данных адресов, баз данных образов документов, списков дескрипторов и их кодов – тезауруса;

Для оценки эффективности информационных систем, содержащих текстовую информацию, очень часто используют семантические показатели, основанные на оценке релевантности между документами и запросами.

Релевантность – объективная степень соответствия найденного документа запросу. Найденный по запросу документ может иметь отношение к запросу, то есть содержать нужную информацию, а может и не иметь никакого отношения. В первом случае документ называется релевантным, во втором – нерелевантным или шумовым.

Как правило, в любой поисковой системе по запросу выдается несколько найденных документов. Многие из них могут повествовать не о том. И наоборот, некоторые важные, релевантные, документы могут быть пропущены при поиске. Ясно, что количество и тех и других определяет качество поиска, которое можно определить достаточно точно. Основными понятиями в мире поисковых средств являются точность выдачи (информационный шум) и полнота выдачи (потери информации).

Точность выдачи определяется тем, какая часть информации, выданной в ответ на запрос, является релевантной. Точность выдачи является параметром, показывающим, какова доля релевантных документов в общем числе найденных. Полнота выдачи является параметром, показывающим, какова доля выданных релевантных документов в общем числе релевантных документов, хранимых в системе.

Точность выдачи, полноту выдачи, потери информации и информационный шум (в процентах) можно вычислить следующим образом:

где – множество релевантных и выданных системой документов; – множество нерелевантных, но выданных системой документов; – множество релевантных, но не выданных системой документов.

Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Данные показатели определяются только в процессе эксплуатации информационных систем. Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность – это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса. Оценки пертинентности, как правило, отличаются от оценок релевантности.

Существуют различные подходы для улучшения качества поиска.

Для повышения полноты выдачи используют такие стандартные средства, как отождествление заглавных и малых букв и использование метасимволов, например «*» (что означает любое количество каких-либо символов). Чтобы повысить полноту поиска, можно, например, запросить что-нибудь вроде «акци*» и отменить чувствительность к заглавным буквам. Это позволит найти слова «акции», «Акциями» и т.д. Но при этом резко возрастет шум, то есть понизится точность выдачи, поскольку можно получить в общем ряду документы, содержащие слова «акциз», «акцизный», «акционировать» и тому подобные шумовые вхождения.

Другим способом повышения полноты выдачи служит поиск слов в разных грамматических формах. Почти любое русское слово – это набор из нескольких словоформ. Для среднего русского существительного таких форм двенадцать – одна основная и одиннадцать косвенных (шесть падежей единственного и шесть – множественного числа). У русского глагола косвенных форм порядка 100, а если считать причастия, то порядка 180. В процессе словоизменения общий смысл слова остается тем же, изменяется только форма и роль слова в предложении.

Качество поиска повышается, если применять поиск по логической комбинации слов, поскольку шум резко снижается при поиске не по одному, а по двум и более словам. Это происходит потому, что отдельное слово может встретиться где угодно в тексте, а вероятность совместного вхождения двух или трех искомых слов в ненужный документ гораздо ниже. При этом методе слова в запросе соединяются логическими операторами «И», «ИЛИ», «НЕ».

В некоторых поисковых системах имеется возможность использовать в запросе скобки. Таким образом, пользователь может ввести для поиска целое логическое выражение, состоящее из слов, а также иногда и других внешних характеристик – даты, размера и т.д., например: «(договор И приказ) ИЛИ (договор И распоряжение)». Такое логическое выражение называется булевой формой, а сам поиск – булевым. Булевый поиск поддерживается большинством поисковых систем, в том числе поисковыми системами Интернета. Помимо булевого поиска существуют другие виды поиска.

Индексный, или двоичный, поиск применяется главным образом со структурированными базами данных. Слова интерпретируются как последовательности закодированных символов. Используя формальный синтаксис, система двоичного поиска выбирает точное соответствие для отдельного слова или цепочки слов. Это самый простой вид поиска документа по содержанию, но и самый слабый вид поиска,

что выражается в малой полноте выдачи, то есть редко удается найти именно нужный документ. Системы двоичного поиска имеют ограничения по точности выдачи, влияющие на возможность нахождения всей относящейся к запросу информации. В методах двоичного поиска не учитываются различные формы значения слов; пользователю непросто угадать точные слова и фразы, которые были использованы авторами в документах. Системы двоичного поиска не могут также ранжировать документы по степени соответствия запросу, поэтому пользователь вынужден читать каждый документ, чтобы определить, насколько он соответствует запросу.

Морфологический поиск – это поиск, опирающийся на знание морфологии языка, поскольку в языке есть процессы словообразования, в ходе которых образуются родственные слова – другие части речи, например: от слова «акция» получаются «акционерный», «акционировать».

Существует два способа осуществления морфологического поиска.

1) бессловарный метод. Программа, основанная на этом методе, выявляет основу каждого слова и отсекает окончания слов при обработке запроса, а затем «приклеивает» их при поиске. При этом пользователю не нужно определять, сколько букв оставить в слове, а сколько заменить звездочкой. Кроме того, у программы есть возможность соотнести окончание, отсеченное у искомого слова, с окончаниями найденных слов. Например, для слова «акция» при разборе запроса будет взято окончание «-я», встречающее у определенных категорий существительных. В этом случае в противоположность строки «акци*» слова «акциз» и «акцизный» найдены не будут, так как имеют окончания, не входящие в набор окончаний, эквивалентных окончанию «-я»;

2) поиск со словарем. Чтобы искать формы заданного слова более точно, поисковая система должна иметь словарь основ. Такой словарь состоит из списка основ слов, ссылки от которых указывают на соответствующие наборы окончаний. Обычно полноценный словарь для русского языка должен включать не менее 100 – 120 тысяч слов, а таблицы окончаний – не менее нескольких сотен наборов эквивалентных окончаний. В этом случае поисковая система сначала отождествляет заданное слово по словарю, то есть находит его основу, а затем проверяет все найденные слова, чтобы узнать, не образованы ли они от той же основы. При этом окончание, отсеченное от проверяемого слова, всегда проверяется на допустимость. Некоторое снижение скорости поиска при использовании словаря обычно компенсируется существенно возросшей точностью.

Более простым в технической реализации является метод поиска по близости. Пользователь может задать, на каком расстоянии друг от друга должны находиться искомые слова, например «не далее 5 слов» или «не далее 3 строк». Обычно задают одно значение близости для всех слов, так как задавать каждой паре слов запроса свой критерий близости слишком утомительно для пользователя. Большинство поисковых средств в составе систем документооборота включают такую возможность.

При нечетком поиске (поиске на естественном языке). При этом поиске пользователь задает запрос в виде множества из нескольких слов, а система находит все документы, в которые входят только некоторые слова из заданного множества (например, любые пять из семи заданных). Степень нечеткости пользователь варьирует сам, задавая либо количество одновременных вхождений, либо числовую степень близости к данному множеству. Нечеткий запрос служит как бы заменителем ручного построения логических выражений. Точность и полнота при нечетком поиске по сравнению с точностью и полнотой при обычном логическом поиске не страдают. Подбирать множество слов и задавать «процент явки» пользователю приходится самому. Усилия пользователя по формулировке запроса минимальны (пользователь может просто выделить фрагмент текста в текущем документе и приказать найти документы, где говорится «примерно о том же самом»).

Хотя описанная задача в принципе решается, поисковых систем этого вида немного. Одна из подобных систем для русского языка «Сивилла», разработанная в компании «МедиаЛингва», которая позволяет в среде Microsoft Word выделить фрагмент документа (на русском и английском языке) и найти все близкие по содержанию документы Word в заданной области поиска, например на всем жестком диске.

Следующий шаг в развитии поисковых систем – это так называемый семантический (смысловой) поиск, основанный на построении и использовании базы знаний, с помощью которой осуществляется поиск информации на основе использования концептуальных отношений.

Перечисленные виды поиска информации могут использоваться в документальных информационно-поисковых системах, но не все они могут использоваться при поиске информации в Интернет.

Информационные ресурсы Интернет и имеющиеся в среде Интернет поисковые средства обладают определенной спецификой, что оказывает существенное влияние на эффективность поиска в данной среде.

Поисковыми средствами сети Интернет являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:

1) робота-программы. Данная программа посещает web-серверы, считывает и индексирует их содержание и далее действует по ссылкам, найденным на сервере. Данная процедура осуществляется периодически, например раз в месяц;

2) индексных массивов и копий текстов просмотренных страниц, хранящихся в поисковой системе;

3) программы, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.

Каталоги содержат иерархические тематические рубрики. Человек относит серверы к тем или иным рубрикам каталога. Пользователь ищет информацию вручную, используя рубрики.

Средства поиска Интернет не используют информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы. Полнота выдачи в Интернет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

Каждая поисковая система характеризуется процентом индексирования документов и имеет свою стратегию выбора (какие из ресурсов индексировать). Количество документов в Интернет ежегодно растет, при этом доля просмотренных и индексированных документов уменьшается.

Информационные ресурсы Интернет делятся на «видимую» и «невидимую» части сайтов. «Видимая» часть сайтов – часть, обрабатываемая поисковыми системами и индексируемая. «Невидимая» часть сайтов не предназначена для обработки поисковыми системами. Исследования показали, что число документов «невидимой» части более чем в 500 раз больше числа документов, относящихся к «видимой» части. Информационное пространство Интернет является достаточно сложным и неоднородным. К отдельным ресурсам Интернет поисковые системы не имеют доступа.

Перечисленное позволяет сделать вывод о том, что эффективность поиска информации в Интернет существенно уступает эффективности поиска в документальных информационно-поисковых системах. Это определяет высокие требования к профессиональной подготовке пользователя, которая необходима для получения нужной информации из информационных ресурсов Интернет.

Срочно?
Закажи у профессионала, через форму заявки
8 (800) 100-77-13 с 7.00 до 22.00

Источник

На чем основывается эффективность поиска

Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а — множество релевантных и выданных системой документов;

б — множество нерелевантных, но выданных системой документов;

в — множество релевантных, но не выданных системой документов.

Полнота выдачи (ПВ) = a / (а + в) * 100%

Точность выдачи (ТВ) = a / (а + б) * 100%

Потери информации (ПИ) = в / (а + в) * 100%

Информационный щум (ИШ) = б / (а + б) * 100%

Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность — это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и информационных ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации составляла 47 %, то в 2000 г. эта доля составляла уже 84 %. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вы» вод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.

Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей;

робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.

В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

центральное ядро — тесно связанные между собой web-страницы, с каждой из которых можно попасть на любую другую (27 %);

отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22 %);

оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);

полностью изолированные от центрального ядра страницы (22 %);

web-страницы, не пересекающиеся с остальными ресурсами Интернета (7 %).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.

У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.

Информационные ресурсы Интернета делятся на «видимую» и «невидимую» части сайтов.

«Видимая» часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части превышает более чем в 500 раз число документов, относящихся к «видимой» части.

Перечисленные особенности информационных ресурсов Интернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернете существенно уступает эффективности поиска в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Указанные обстоятельства определяют высокие требования к профессиональной подготовке пользователя, которая необходима для получения нужной информации из информационных ресурсов Интернета.

Организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана специфичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных, которая включает следующие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники информации.

Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой информации.

Источник

Вопросы эффективности поиска информации в Интернете и профессиональных базах

Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а — множество релевантных и выданных системой документов;

б — множество нерелевантных, но выданных системой документов;

в — множество релевантных, но не выданных системой документов.

На чем основывается эффективность поиска. Смотреть фото На чем основывается эффективность поиска. Смотреть картинку На чем основывается эффективность поиска. Картинка про На чем основывается эффективность поиска. Фото На чем основывается эффективность поиска

Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность — это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности пояска в профессиональных базах и информационных ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.

Информационные ресурсы Интернета и имеющиеся в среде Интернет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде. Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:

индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.

В 2000 г. специалисты компаний AltaVista, IBM и Compag исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн web-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);

полностью изолированные от центрального ядра страницы (22 %);

web-страницы, не пересекающиеся с остальными ресурсами Интернета (7 %).

У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, показывает, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.

Информационные ресурсы Интернета делятся на «видимую» и «невидимую» части сайтов.

«Видимая» часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами.,Американская фирма BrightPlanet разработала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части превышает более чем в 500 раз число документов, относящихся к «видимой» части.

Вопросы для самопроверки

1. При переходе к рыночной экономике информация стала товаром. Какие изменения в связи с этим произошли в информационном обеспечении деятельности предприятий?

2. Какие основные тенденции в развитии мирового информационного рынка могут быть отмечены?

3. В какой степени мировой информационный рынок соответствует потребностям государственных и коммерческих структур?

4. Сравните по содержанию ресурсы профессиональных баз и информационные ресурсы Интернета.

5. Какие основные критерии существуют для оценки эффективности поиска информации в документальных (текстовых) системах?

6. Какие особенности текстовых документов оказывают решающее влияние на эффективность поиска информации в Интернете?

7. Сравните профессиональные базы и информационные ресурсы Интернета по достоверности хранимых данных.

8. Имеют ли место существенные различия в языках запросов современных информационных систем и поисковых машин, используемых в Интернете?

Источник

Обучающий портал regplate.ru

На чем основывается эффективность поиска

Электронная библиотека

На чем основывается эффективность поиска

Вопросы эффективности поиска информации в Интернете и профессиональных базах

Добавить комментарий Отменить ответ

Электронная библиотека

На чем основывается эффективность поиска

Вопросы эффективности поиска информации в Интернете и профессиональных базах

Вам также понравится

Нам есть чем гордиться запятая нужна или нет

К чему снятся старинные иконы

Магнитный конструктор что можно построить

Добавить комментарий Отменить ответ