НЕФТЬ-ГАЗ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
На главную >>



О проекте

Общее
Зачем это нужно?
Как у нас?
Что на сайте.
Откуда взялся термин "Кака"?

Общее

В течение пяти лет наша команда занимается созданием полнотекстовой технической библиотеки. На сегодняшний день в ней свыше 9000 книг. Все они доступны для скачивания на сайте www.oglibrary.ru. Такой большой объем текстовой информации (3000000 страниц текста), позволил нам приступить к разработке автоматизированных экспертных и поисковых систем. Изначально были поставлены две главные задачи:

  1. надо было научить систему "понимать" предложения на русском языке. Это означает, что программный модуль должен был проводить пунктуационный и синтаксический анализ текста с учетом семантики и на основе данного анализа составлять синтаксические схемы равноправия и подчинения слов в предложении;
  2. на основе синтаксических схем необходимо было выделять в предложениях, абзацах, тексте основные предметы повествования и их распространения, если по-простому, то определять тему текста.

Зачем это нужно?

На сегодняшний день в Интернете есть тысячи поисковых систем. Если говорить большинстве поисковых систем, то все они неудобны в том плане, что не могут анализировать контент сайта на предмет его тематической принадлежности. Проще говоря, если я хочу узнать как устроен чайник, то мне не нужны тексты (сайты), в которых написано где и как их можно купить, или тексты, в которых слово "чайник" употреблено в переносном значении. Также мне не нужны тексты, в которых это слово употреблено "к месту" ("Масяня вздохнула и поставила чайник на стол"). Мне нужен текст, в котором чайник был бы главным предметом повествования, был наиболее полно описан и распространен, чтобы там были описаны все его конструкции, формы и способы раскраски. Без полного разбора текста по правилам русского языка это сделать очень сложно. Существующие поисковые системы создавались, прежде всего, для текстов на английском и близких ему языках. Это информационные языки, которые по сложности не сравнимы с русским с его распространенностью, многозначностью и сложнейшей семантической системой. Поэтому поисковые системы вынуждены использовать словари и прибегать к статистическим методам (например, считать количество повторений слова в тексте), эффективность которых невысока, особенно в русскоязычных текстах. Мы неоднократно сталкивались с проблемами статистических методов, когда создавали каталогизаторы для нашей библиотеки. Поскольку у нас очень большой объем книг и сложная система каталогов, то распределять новые поступления литературы по разделам вручную было невозможно. Мы создавали программы, которые пытались распределять книги по числу повторений слов в текстах, анализировали названия и заголовки. Для этого необходимо было иметь базу книг, каталогизированных вручную, для сравнения. Естественно, это было неудобно, и в 5-10% процентах случаев каталогизатор ошибался.

Как у нас?

На первом этапе, используя толковые словари русского языка (словари Ожегова, Даля, например), мы создали обширную базу употребительных слов русского языка, разбитых по частям речи. Затем, максимально углубившись в систему русского языка, описали алгоритмы получения всех наклонений частей речи, а также элементарного словообразования (приставочного, суффиксального и т.д.). Получился словарь, состоящий из полутора миллиона слов с точным указанием части речи и наклонения.

Имеющаяся база позволила приступить к пунктуационному анализу текстов. Тексты бились на абзацы, предложения, словосочетания, определялись взаимосвязи слов. Потом выделялись главные предметы в предложениях. Дальше работали статистические методы. Так удалось получить главные термины текста и их распространения, которые мы объединили в глоссарии по книгам.

На данном этапе мы думаем, что делать с полученными схемами дальше и расширяем словарь.

Что на сайте.

На данном сайте выложены результаты анализа и обработки текстов в виде автоматически созданных глоссариев к ним. Для каждого термина в глоссариях приведены все предложения в тексте, в которых он встречается. Благодаря этому, мы также смогли открыть контент книг для поисковых систем. Предложены расширенные варианты поиска, поиск по глоссариям, а также тривиальный поиск по сайту.

На данный момент сайт не доработан с технической стороны и возможны ошибки. В дальнейшем его функциональность будет расширяться, а ошибки будут исправлены.

Откуда взялся термин "Кака"?

Учесть все многообразие слов русского языка довольно трудоемкая задача, поэтому мы вынуждены были создать анализатор похожести слов так, чтобы система определяла характеристики слова, которого нет в словаре, по схожести его с другими словами, которые в словаре есть. Например в словаре есть слово "продукта" - это Р.п. ед.ч. существительного "продукт". В тексте встретилось слово "нефтепродукта", его в словаре нет, тогда анализатор находит максимально похожее слово, коим является слово "продукта". К сожалению, этот "слепой" метод допускает ошибки. Например он не знает союз "как", а наиболее похожее слово "собак", поэтому он считает, что это существительное в Р.п., а в И.п. получается "кака". Вот так и появляются подобные "термины".


Главный редактор проекта: Мавлютов Р.Р.
oglib@mail.ru
Яндекс цитирования