ЭнергетикаМеталлургияХимия и нефтехимияГорнодобывающая отрасль, угольНефть и газАПК и пищевая промышленностьМашиностроение, производство оборудованияТранспортАвиация, аэрокосмическая индустрияАвто/МотоАудио, видео, бытовая техникаТелекоммуникации, мобильная связьЛегкая промышленностьМебель, лес, деревообработкаСтроительство, стройматериалы, ремонтДругие отрасли
|
|
В последнее время все более актуальным становится использование различным программ, осуществляющих поиск документов различных форматов, информации в СУБД и информационных системах, сообщений электронной почты и прочих данных, содержащихся как на жестком диске персонального компьютера или в локальной сети предприятия, так и в других источниках знаний.
✐ место для Вашей рекламы
Востребованность поисковых систем такого рода обусловлена непрерывным ростом объемов текстовой информации, доступной как всему обществу, так и каждому его представителю. И если раньше программы поиска были ориентированны только на корпоративный сектор (для домашнего использования хватало «прямого поиска» с обычным перебором файлов), то теперь разработчики стремятся удовлетворить потребности и обычного пользователя – объем информации-то возрос. Но несмотря на это, приоритетным направлением развития поисковых технологий (помимо Интернета) является корпоративный сектор.
Наиболее важным параметром любой системы поиска является скорость ее работы. Это касается как индексации больших объемов данных, так и скорости поиска документов. Конечно, немаловажными факторам являются возможности работы с различными источниками данных, списки поддерживаемых форматов файлов и дополнительный функционал (поддержка морфологии, синонимов, различных видов поиска). Но, если взять определенный набор необходимых функций, то большинство конкурентоспособных программ ими обладают.
Корпоративный поиск
Проблема организации данных в единую базу частично решается за счет DMS, CRM и специализированных СУБД. Но, чем больше предприятие и чем разнообразнее его виды деятельности, тем сложнее обрабатывать информацию из различных источников. Документы на диске, 1С, Oracle и различные информационные системы – список можно продолжать бесконечно. Архивы html-страниц, электронная корреспонденция и даже записи логов ICQ – в последнее время отнюдь немаловажный «информационный сектор», который можно смело подключать к основным хранилищам данных внутри любой крупной компании. На основе анализа многообразия этих источников поступления и хранения текстовых данных можно выделить две основные проблемы «информационного обеспечения». Это неструктурированность информации и ее поиск. В принципе, эти проблемы взаимосвязаны. Так как получив хорошую систему поиска информации по различным источникам, можно, тем самым, предельно систематизировать полученные результаты.
Есть проблема – есть и решение. Это корпоративные search-системы, работающие с различными источниками знаний, как на компьютере пользователя, так и в локальной сети. Их главная задача – осуществлять быстрый и точный поиск документов в больших объемах данных. О таких специализированных программах сегодня речь и пойдет. Встроенные же в различные DMS элементы поисковиков, будь они стократ великолепны, обсуждать не будем. По аналогии, домашние кинотеатры и телевизоры, встраиваемые, например, в холодильник в один ряд не поставишь.
Индексация
В основе современных технологий лежат два основополагающих процесса. Во-первых, это индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается первого, то любая программа (будь то настольный поисковик, корпоративная информационная система или Интернет поисковый движок) создает свою область поиска. То есть обрабатывает документы и формирует индекс этих документов (организованная структура, в которой содержится информация об обработанных данных). В дальнейшем именно созданный индекс используется для работы – быстрого получения списка нужных документов согласно запросу. Дальнейшее хоть и отнюдь не просто в плане технологии, но зато вполне понятно обычному пользователю. Программа обрабатывает запрос (по ключевому слову-фразе) и выводит список документов, в которых эта ключевая фраза содержится. Так как информация содержится в структурированном индексе, то обработка запроса проходит значительно (в десятки и сотни раз!) быстрее, чем в случае с прямым поиском (выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе).
Найденные документы программа выводит в результирующем списке согласно релевантности – соответствия документа тексту запроса. В различных технологиях, конечно, присутствуют различные методы поиска и определения релевантности документа (количество «вхождений» слова и его частота упоминания в документе, соотношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и так далее). На основе этих параметров определяется «вес» документа и, в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции. В случае с Интернет-поиском дело обстоит еще сложнее. Ведь в данном случае надо учитывать и множество иных факторов (Page Rank Google тому пример). Но это тема для отдельной статьи, поэтому Интернет трогать не будем.
Участники и диспозиция
Выяснить, какая же система поиска информации на данный момент самая быстрая и толковая и призван данный обзор. Для search-теста было выбрано 7 программных продуктов: Google Desktop Search, Copernic Desktop Search, DtSearch 7.0, iSYS 7.0 и SearchInform 1.5.02. Для проведения скоростного марафона было собрано 20 гигабайт текстовой информации (документы в форматах doc, txt и html), содержащих подборку художественной литературы и различных новостей из сети Интернет. Тесты проводились на вполне современном офисном компьютере с процессором AMD Barton 2.5 MHz, 1 Гигабайтом оперативной памяти, 160 гигабайтным IDE жестким диском Seagate на 7200 оборотов в минуту и системой Windows XP.
dtSearch 7.0
Разработчик: dtsearch Corp.
Официальный сайт: www.dtsearch.com
Цена: $199
Размер дистрибутива: 23,1 Мб
Разработка компании dtSearch Corp. dtSearch Desktop со встроенным dtSearch Spider умеет индексировать и находить не только файлы на компьютере пользователя, но и веб узлы (на заданную глубину), ресурсы локальной сети, а также использовать внешние индексы, созданные на других компьютерах. Как и следовало ожидать, dtSearch распознает различные кодировки, в том числе и кириллические, а также множество форматов файлов, такие как .doc, .xls, .rtf, .pdf, .html и так далее. Нужно отметить также возможность поиска в базах данных в общем и по содержимому конкретных полей в них в частности.
Кроме традиционного поиска на «естественном языке» или с помощью формальных запросов, в dtSearch есть еще несколько видов поиска: с учетом морфологии, нечеткий (подразумевающий возможные ошибки и опечатки), фонетический (с учетом сходных по звучанию слов) и синонимический. Но это все заявленные возможности. Хотя должен сказать, что особых расхождений с продекларированными функциями я не обнаружил.
Тестовые 20 гигабайт информации dtSearch Desktop 7.0 проиндексировала за 6 часов 13 минут, создав для нужд последующего поиска индекс размером 7.9 Гб.
Что касается непосредственно поиска документов, то накладок у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы (хоть и с небольшой паузой – 20 гигабайт все-таки) и по простому запросу в одно слово и по использовании в качестве ключевой фразы пары абзацев какого либо документа. Хотя должен заметить, что при поиске по приличному фрагменту текста (в несколько десятков слов) система «подвисала» на некоторое время, прежде чем выдать результат.
Плюсы dtSearch Desktop 7.0 Минусы dtSearch Desktop 7.0
+ Поиск с использованием морфологии+ Поиск с использованием синонимов+ Нечеткий поиск+ Фонетический поиск + Поиск в базах данных (через ODBC)+ Поддержка сообщений Outlook + Поддержка различных кодировок+ Работа в локальной сети+ Индексация веб страниц на заданную глубину - Отсутствие возможности подключения различных источников информации (кроме СУБД) и Outlook e-mail- низкая скорость поиска по ключевой фразе более чем 50 слов
iSYS 7.0
Разработчик: iSYS Search
Официальный сайт: www.isys-search.com
Цена: $570
Размер дистрибутива: 38,8 Мб
Компания ISYS существует уже 16 лет, и за это время приобрела более 10 000 потребителей своей продукции. С самого основания компании программные продукты ISYS ориентировались на бизнес-пользователей. В линейку ПО ISYS входят программы поиска, как на настольных компьютерах, так и в корпоративных сетях и в Интернет.
Корпоративная поисковая система ISYS предназначена для быстрого и удобного поиска. Будь то персональный компьютер, Интернет или корпоративная сеть предприятия. ISYS индексирует данные и позволяет искать документы используя операторы и ключевые фразы точно так же, как это происходит в случае с Интернет-поисковиками.
ISYS поддерживает несколько методов запросов (Command Line Query, Menu-Assisted Query, Natural Language Query); использует алгоритм релевантности документов и лингвистические особенности языка, позволяющие внедрить такие функции как синонимы, нечеткий поиск (поиск с ошибками) и так далее.
ISYS поддерживает 125 форматов файлов (включая документы Microsoft Office, WordPerfect, электронную почту, PDF, XML, базы даны и так далее) и 30 языков, среди которых даже китайский, японский и корейский.
Созданием индекса и обработкой 20 гигабайт информации ISYS 7.0 занималась 6 часов 13 минут, в конечном итоге показав неплохое время и размер созданного файла - 7.9 Гб.
Несколько усложненный для новичка метод поиска с различными вариантами запросов поначалу (для неопытного пользователя) может показаться неудобным. Но при кропотливом изучении все становится на свои места. Дело в том, что программа отказывается просто так искать документы по «длинному», в несколько слов, запросу. Для этого в ней предусмотрены дополнительные методы. К плюсам программы можно отнести очень качественно сделанную систему авторубрикации документов. Сразу же после индексации iSYS разбила все обработанные документы по рубрикам и представила их в удобном виде.
Плюсы iSYS Desktop 7.0 Минусы iSYS Desktop 7.0
+ Поиск с использованием синонимов+ Нечеткий поиск+ Поддержка различных кодировок+ Поддержка различных методов запроса+ Эвристический анализ+ Поддержка различных источников данных (SQL, FTP, TRIM Context, WORLDOX 2002)+ Поиск информации более чем на 30 языках+ Продуманная система авторубрикации данных+ Работа в локальной сети - Отсутствие поддержки морфологии- Цена
Google Desktop Search + GDE Enterprise
Разработчик: Google
Официальный сайт: http://desktop.google.com/enterprise
Цена: бесплатно
Размер дистрибутива вместе с TweakGDS: 1,2 Мб
Бесплатная разработка компании Google предназначена для поиска информации на персональном компьютере пользователя, в сети Интернет и корпоративной сети предприятия.
Google Desktop Search Enterprise может похвастаться возможность индексации и поиска документов пары десятков самых распространенных текстовых форматов, а также электронной почты, тэгов аудио и видео файлов и изображений. Есть один немаловажный момент: для того, чтобы указать программе, какие файлы и папки индексировать, нужно установить дополнительный компонент gdetweak. Без данной надстройки Google Desktop Search Enterprise индексирует всю информацию на компьютере пользователя и в сети предприятия, к которой может получить доступ. С 20 гигабайтами текстов Google Desktop Search справилась за 8 часов 17 минут. Размер созданного индекса равен 4,5 Гб. Скорость поиска - удовлетворительна и находится на одном уровне с уже признанными игроками рынка.
В отличие от, например, ISYS и dtSearch, Google Desktop Search Enterprise может похвастаться, наверное, самым дружественным пользователю интерфейсом. Но, по части администрирования и настройки работы в локальной сети она уступает конкурентам, причем, весьма ощутимо. Дело в том, что настроить сетевую работу так, как нужно в определенной ситуации, довольно непросто – система пытается все сделать самостоятельно. Тонкая настройка достигается только при установке дополнительных компонентов. Это колоссальный минус. Можно сказать, что как настольная система Google Desktop Search с компонентом gdetweak не имеет себе равных.
Но вот о корпоративном применении можно пока забыть. Заявленный поиск документов, похожих по содержанию (в Интернет-оригинале similar pages), работает из рук вон плохо, судя по всему, именно поэтому и не включен в «не глобальный» как настольный, так и сетевой вариант.
Плюсы Google Desktop Search Минусы Google Desktop Search
+ Поиск с использованием морфологии+ Поиск с использованием синонимов+ Поддержка различных кодировок+ Привычный веб-интерфейс+ Работа в локальной сети (Enterprise версия)+ Индексация электронной почты, тэгов аудио и видео файлов и изображений+ Бесплатность - Структура адд-онов*
*Дело в том, что для полноценной работы программы требуется скачать и установить большое количество дополнительных модулей. Для того чтобы указать программе, какие файлы и папки индексировать, нужно установить дополнительный компонент gdetweak. Без данной надстройки Google Desktop Search индексирует всю информацию на компьютере пользователя и в сети предприятия, к которой может получить доступ. Также дело обстоит и с другими функциями этого поисковика. Например, с поддержкой архивов.
Copernic Desktop Search
Разработчик: Copernic
Официальный сайт: www.copernic.com
Цена: бесплатно
Размер дистрибутива: 2,56 Мб
Copernic Desktop Search позволяет искать различные файлы, сообщения электронной почты (поддерживается работа с Outlook Express 5.x/6.x, Outlook 2000/XP/2003, Windows Address Book), документы Word, Excel, PowerPoint, Acrobat PDF, музыкальные и видео файлы, графику и т.д. Причём, поиск может осуществляться как на локальном компьютере, так и в Интернете. Встроенные средства просмотра различных файлов позволяют визуально увидеть результаты поиска. Например, если выделить в главном окне программы значок какого-либо HTML документа, то в Copernic Desktop Search отобразится его содержание. После инсталляции программы на Панели задач появляется небольшое окошко, предназначенное для ввода поискового запроса и быстрой настройки этого поисковика. Отдельно стоит отметить высокую скорость работы программы и низкий уровень потребления ресурсов компьютера.
Проиндексировать 20 гигабайт текста Copernic Desktop Search удалось за 10 часов 51 минуту. При этом размер созданного индекса составил 7 Гб.
Плюсы Copernic Desktop Search Минусы Copernic Desktop Search
+ Поиск с использованием морфологии+ Исключительно дружественный интерфейс+ Индексация электронной почты, тэгов аудио и видео файлов и изображений + Работа с электронными сообщениями Microsoft Outlook и Microsoft Outlook Express+ Бесплатность - Отсутствие встроенного просмотрщика документов- Отсутствие поддержки работы с сетью
SearchInform 1.5
Разработчик: СофтИнформ Ltd.
Официальный сайт: www.searchinform.com/site/ru
Цена: $199.95
Размер дистрибутива: 15 Мб
Последней в списке, но отнюдь не последней по производительности, значится система SearchInform от компании СофтИнформ. SearchInform Desktop 1.5 проиндексировала предоставленные данные в размере 20 гигабайт за рекордное время - 3 часа 17 минут. Да и размер созданного индекса оказался самым небольшим 4.4 Гб.
Поисковик компании СофтИнформ разработан на основе запатентованной технологии «поиска документов, похожих по содержанию» - SoftInform Search Technology. Он включает в себя все инструменты, необходимые для структуризации разрозненной информации в рамках предприятия и предоставляет собой эффективное решение любых проблем поиска и консолидации информации.
Высокая скорость индексирования (до 6 Гб/час), малый размер индекса (15-20% от реального объема текстовой информации), поддержка практически всех распространенных форматов текстовых файлов (включая .pdf и .html) и корректная работа с архивами – все это в одной упаковке.
Если учесть небольшую, но очень полезную функцию SearchInform – Smart Indexing, которая позволяет в режиме реального времени отслеживать нагрузку на процессор компьютера и регулировать уровень потребления программой системных ресурсов при индексации, то пальма первенства разработке СофтИнформ досталась более чем по праву.
К тому же, процесс индексирования (в отличие от других программ в обзоре) весьма нагляден, и демонстрирует не только скорость, но и количество обработанных документов, а также число уникальных слов, по которым будет осуществляться поиск.
Лидером SearchInform Corporate оказался и по скоростям поиска. 20 гигабайт программа щелкала как семечки, делая небольшую паузу только после первого запроса (в дальнейшем поиск проходил мгновенно). Притом адекватность поиска оказалась безупречной.
Плюс ко всему, в программе SearchInform Corporate, разработанной на основе уникальной технологии SoftInform Search Technology, присутствует очень интересная функция: поиск документов похожих по своему содержанию на текст запроса. Это позволяет в процессе поиска избежать предварительного подбора ключевых слов – поиск осуществляется по всему документу в целом. Результатом поиска является вывод максимально похожих на заданный фрагмент текста документов с указанием процента релевантности.
Плюсы SearchInform Desktop 1.5 Минусы SearchInform Desktop 1.5
+ Поиск с использованием морфологии+ Поиск с использованием синонимов+ Нечеткий поиск+ Функция важных слов для конкретизации поиска+ Индексация электронных сообщений Outlook и TheBat!+ Поиск по атрибутам+ Рубрикатор + авторубрикация документов+ Поддержка различных источников информации (СУБД, DMS, CRM и так далее) + Работа с сетью (Corporate версия) на основе наследования NTFS аутентификации Windows+ Скорость поиска и индексирования+ Поиск похожих по смыслу документов* - Проблемы с защищенными документами PDF
*Данная технология основана на математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста. Результатом поиска является вывод максимально похожих на заданный фрагмент текста документов с указанием процента релевантности. В отличие от стандартного фразового поиска, SoftInform Search Technology позволяет избежать предварительного подбора ключевых слов. Эта функция позволяет сократить время «поисковой сессии» до минимума. Наличием такой удобной и востребованной функции на данный момент не может похвастаться ни одна система.
Сравнение скоростей индексирования
Индексировалось 20 Гигабайт информации. Компьютер: AMD Barton 2.5 MHz, 1 Гигабайт оперативной памяти, 160 гигабайтный IDE жестким диском Seagate на 7200 оборотов в минуту и система Windows XP+SP2.
Система поиска Время индексации Размер индекса
DtSearch 7.0 6 часов 3 минуты 8.6 Гб
iSYS Desktop 7.0 6 часов 13 минут 7.9 Гб
Google Desktop Search 8 часов 17 минут 4,5 Гб
Copernic Desktop Search 10 часов 51 минута 7 Гб
SearchInform 1.5.02 3 часа 17 минут 4.4 Гб
Резюме
На основе функционально-скоростных характеристик рассмотренных систем поиска однозначный вывод сделать непросто. Как оказалось, новая разработка Российской компании СофтИнформ быстрее и функциональнее даже западных «проверенных временем» аналогов. Но…
Раскрученный и совершенно бесплатный GDS Enterprise поддается четкой настройке и обрастает дополнительными возможностями только при условии установки плагинов. Даже поддержка архивов реализована именно так. Плюс ко всему, для того чтобы на полную катушку раскрыть возможности данной системы, разработчики предлагают предприятию подключиться к Premium Support. Который стоит «всего ничего», $10000 в год для каждой 1000 пользователей. Без неплохо оплачиваемых экспертов Google развернуть полноценно работающую систему на предприятии будет если не невозможно. То по крайней мере архисложно. Поэтому, глядя на вполне неплохие скоростные показатели этой программы и ее дружественный IEшный интерфейс будет лучшее ее отнести к прекрасному «настольному» варианту поисковиков и сделать глубокий реверанс в сторону компании Google, которая таким образом сможет осуществить мечту Билла Гейтса – проникнуть в каждый дом. А что, хороший брэндинг?
Основное соперничество, если можно так назвать проведенные тесты, развернулось между уже известным программными продуктами dtSearch и iSYS и новой разработкой российской компании СофтИнформ - SearchInform. Эти системы могут похвастаться подключением сторонних источников знаний, таких как базы данных, например, высокими скоростями индексирования и поиска и расширенными возможностями поиска.
SearchInform Corporate, вдобавок к своей самой высокой скорости индексирования и поиска документов и уникальной функции поиска документов похожих по содержанию может выступать как еще и как система, консолидирующая информацию на предприятии. Все дело в том, что данная система может обрабатывать не только документы на диске компьютера или в сети предприятия, но и использовать иные источники данных, такие как CRM или DMS, СУБД на базе MS SQL и так далее. Можно сказать, что SearchInform Corporate – это единственная программа из обзора, которая может решить обе важнейшие проблемы «информационного обеспечения» предприятия - как проблему поиска документов, так и консолидации знаний в единую удобную систему.
Опубликовано: 10 февраля 2006 г.
Ключевые слова: нет
Извините, комментариев пока нет
|