Stanislav Taktaev personal web site
Персональный сайт Станислава Тактаева.
 

Search

 | 

Новости/News

 | 

Русский

 | 

English

Форум / Discussion ||

Поиск информации

"Summatech DataMining"

"Summatech DataMining" – это Система поиска и обработки информации (dataminig system) нового поколения, с оригинальным поисковым механизмом и механизмом вербализации данных. Это позволяет проводить совместный поиск и анализ как по текстовым массивам информации, так и по числовым базам данных (например, по новостной ленте и биржевым котировкам), что позволяет проводить причинно – следственный анализ. Система работает на математически прозрачном алгоритме, без использования нейронных сетей.

Поисковая подсистема «STFinder» является поисковой системой нового поколения и базируется на концепции распределенных вычислений, математической оценке соответствия выдаваемых результатов поисковому запросу и построения поискового запроса на базе определения понятия, данного в координатной теории понятий.

В настоящее время в системах поиска информации преобладают иные подходы, что обусловлено их историей развития. Так, концентрация всей поисковой информации, вплоть до копий исходных документов, на поисковом сервере, дает возможность быстрого поиска нужного документа вне зависимости от его фактической доступности. Но это ведет к перегрузке сервера, не дает возможности «тонкой настройки» поисковых запросов (учитывая историю запросов пользователя, сферу его интересов и т.д.) и (что самое главное!) не гарантирует доставки искомого документа, что может свести результативность конкретного поиска к нулю.

То есть, такая архитектура обеспечивает работоспособность поисковой системы в условиях низкой скорости и ненадежности каналов связи, низкой вычислительной мощности клиентского оборудования, не очень больших объемов (сотни тысяч, миллионы) документов, что было актуально в 90-х годах ХХ века. Сейчас все эти предпосылки устарели, выскокоскоростные и надежные каналы связи стали обычным явлением, в несколько десятков раз выросла вычислительная мощность клиентских компьютеров, но и число документов в Сети выросло в десятки тысяч раз, приближаясь к 10 миллиардам. Следовательно, необходима иная архитектура, реализующая эти требования.

Предлагаемый поисковый механизм обеспечивает:

1. 100% покрытие индексируемых ресурсов, с актуализацией информации в реальном времени, независимо от их количества и объема (в настоящее время поисковые системы обходят макс. 35-50%, с большими задержками при обновлении ресурсов);

2. тонкую настройку поискового механизма в зависимости от области поиска, предыдущих запросов пользователя, подбора синонимов запроса, что дает возможность максимально сфокусировать поиск (сейчас такого практически нет);

3. оценку найденных ресурсов по их перитентности, реальному соответствию запросу пользователя, математически, (сейчас используются синтетические критерии типа «релевантность», не связанные с реальным соответствием);

4. Анализ найденных результатов по технологии, аналогичной OLAP, то есть с возможностьюмоделироватьрезультаты поиска, перестраивая запрос.

Подсистема построения отчетов «STCopywriter» является генератором отчетов нового поколения и осуществляет написание отчетов на основании заданных рядов данных на естественных языках с элементами математического и статистического ( в будущем – эвристического) анализа. В настоящее время невозможно осуществлять эффективный текстовый поиск по базам данных – ведь там данные представлены в основном в числовой форме. Существующие системы генерации отчетов осуществляют шаблонный подход к построению отчета. Отличительной особенностью предлагаемой системы является то, что она имитирует действия человека, читающего доклад с использованием графиков и таблиц, то есть является следующим шагом в деле построения отчетов.

Описание рынка

Данная система ориентирована на:

  1. крупные компании с большой корпоративной сетью,
  2. компании и организации, занимающиеся мониторингом информации,
  3. корпоративный рынок стран с развитой экономикой.

Накопление и структурирование информации в корпоративных и общедоступных хранилищах данных отлажено, но число хранимых документов растет экспоненциально, значит на следующем этапе неминуемо вырастет потребность в поиске данных. Следовательно, закономерным этапом будет рост спроса на системы dataminig.

Системы управления знаниями - одна из самых динамичных отраслей ИТ, и в 2003 году общий объем данного рынка в США составит 10-12 млрд. долл. Доля продаж ПО в составит порядка 5%, или 500-600 млн. долларов. Более того, по некоторым оценкам рынок этих систем может стать одним из локомотивов роста продаж на IT рынке, а ближайшие 5 лет для этого рынка будут периодом взрывного роста.

В Microsoft этому сектору уделяется большое внимание, там уже несколько раз пытались создать собственную всемирную поисковую систему. Вот слова Билла Гейтса: "Сегодня информацию очень трудно найти. Для ее хранения мы применяем тысячи разных способов. У нас есть разные пространства имен. Вы только подумайте, как много поисковых команд вы должны знать. Нам необходимо двигаться вперед по многим позициям. И я ставлю на первую строчку в этом перечне „легкость получения информации“ — именно на этом нужно сосредоточить научные разработки».

Описание организации выполнения проекта и вывода технологии на рынок

Разработка системы производится по технологии Agile (Extreme) Programming. Базовой платформой для системы является сервер приложений Zope (www.zope.org).

Система представляет функционально завершенные и независимые модули, которые можно будет легко интегрировать с существующими хранилищами данных и системами управления предприятием.

Основное продвижение продукта будет производиться через Интернет, центром продвижения будет Интернет – портал и поисковая система в Интернете, работающая на принципах STFinder и (тем самым) рекламирующая этот продукт.

Основные этапы вывода технологии на рынок:

  1. Пререлиз. Продвижение продукта на этом этапе будет осуществляться через интернет – портал и будет начато с момента готовности бета- версий продукта. Они будут распространятся бесплатною Цель: получить быструю реакцию рынка, выявить и исправить основные ошибки в системе и ее маркетинге. Длительность этого этапа – 6-8 месяцев.
  2. Релиз. Релиз будет распространяться через Интернет, бесплатно среди целевой группы («партнеры»-ИТ консалтинговые компании). Запускается поисковая система. Модули Finder и Copywriter будут распространяться как отдельные shareware продукты. Основой целью маркетинга будет здесь персональная работа с партнерами и конечными потребителями. На данном этапе планируется выход проекта на самоокупаемость. Длительность этого этапа – 12-18 месяцев.
  3. Сообщество разработчиков. На данном этапе продвижение продукта будет осуществляться партнерами – соразработчиками системы, при централизованной координации. Основное направление маркетинга здесь – имиджевый маркетинг, общий PR. Длительность этого этапа – 12-18 месяцев.
  4. Прием стратегического инвестора. На данном этапе планируется целевой поиск инвесторов для мультиплицирования развития компании. Задача – обеспечение капитализации компании, привлечение средств для прикладных исследований в области теории управления знаниями.

Главные препятствия реализации проекта

  1. стагнация мировой экономики, повлекшая за собой существенное сокращение инвестиций в ИТ.
  2. неоднозначное отношение западного рынка и инвесторов к российским разработчикам.
  3. Сложность поиска финансирования на начальных этапах проекта.


You can ask author:

Pls, carefully type your email!

Your E-mail:
Your Question:

Website from "Summatech"
I'll ready to answer to you: Stanislav Taktaev