Stanislav Taktaev personal web site
Персональный сайт Станислава Тактаева.
 

Search

 | 

Новости/News

 | 

Русский

 | 

English

Форум / Discussion ||

Оценка размерности пространства понятий.

Размерность ПП можно оценить как число признаков, достаточных для однозначного определения того или иного понятия. То есть, сопоставив признак понятия c измерением ПП, мы получаем положение конкретного понятия на оси координат. Следовательно, определив число признаков, достаточных для определения данного понятия, мы получим оценку размерности ПП, достаточную для практических целей.

Проведем «оценку снизу» размерности ПП

Очевидно, для однозначного сопоставления данному числу понятий нужно соответствующее количество уникальных «ячеек» в ПП, то есть всех возможных значений координат.

Следовательно, размерность ПП будет определяться исходя из соотношения

N=km, где N- число ячеек для понятий, m – число признаков (размерность ПП), а k – количество возможных значений каждого признака.

То есть размерность ПП : m= LogkN

Примем число понятий N< 10 6 ( в русском, английском языке реальное число понятий – 300-500 тыс).

Очевидно, что максимальная размерность ПП будет при минимальном k, k=2 (Если определить число признаков исходя из бинарной логики - (есть признак или его нет))

m= Log2 106 ~ 16.

Однако, использование ТПП данной размерности не позволяет осуществлять ранжирование информации с использованием разрешенных и запрещенных областей, поскольку данных подход предполагает наличие «пустых» областей в координатах. Следовательно, данная оценка верна как оценка размерности «снизу». Однако, данная оценка справедлива и достаточно точна для кода дескриптора (см. 7.6), то есть очевидно, что полученный результат есть достаточная длина в битах для кода, по сути нумерующего понятия в ПП, то есть 16 бит – это достаточная длина для кода дескриптора.

Практическая оценка

Для практической оценки размерности ПП предлагается модель задана иерархической (доменнойя) структуры (см.3.3. Измерения (оси координат) пространства понятий. Точка отсчета.). Пусть задана иерархическая (доменная) структура ПП в виде некоторого каталога. Очевидно, что верхний (корневой) раздел каталога - это есть «мир» и он не имеет каких либо признаков ( и имеет все сразу). По мере движения в иерархической структуре вниз, на каждом уровне добавляется один признак (измерение ПП), при чем для каждого подраздела – свой. То есть, если раздел содержит 10 подразделов, то на этом уровне добавляется 10 признаков - измерений ПП.

Для принятого числа понятий (300-500 тыс. ) для группировки их по 10 в группе ( принимается, что в одном измерении находится в среднем 10 вариантов значения признака), то для описания данного количества потребуется соответственно 33-55 тыс. Измерений

Существует возможность и прямой практической оценки необходимой размерности по этой модели: количество разделов каталогов крупных поисковых систем в Интернете.

Так, например, количество категорий в каталоге.

  1. Yahoo - каталог; более 1,2 млн.
  2. AltaVista - поисковая машина; 1 млн.
  3. Excite - поисковая машина; 1 млн.
  4. HotBot - поисковая машина; 950 тыс.
  5. Lycos - каталог; 950 тыс.
  6. Infoseek - поисковая машина; 500 тыс.

Таким образом, для долее или менее полного описания пространства понятий Интернете, необходима размерность порядка 1-1,5 млн.

You can ask author:

Pls, carefully type your email!

Your E-mail:
Your Question:

Website from "Summatech"
I'll ready to answer to you: Stanislav Taktaev