Московская городская научно-исследовательская конференция «МАТЕМАТИКА: ЗНАНИЕ И РЕАЛЬНОСТЬ» в области естественно-математических наук, 2014

Предмет: Другое
Категория материала: Тесты
Автор:

Организаторами Конференции являются:

Департамент образования города Москвы,

Северо-Восточное окружное управление образованием,

Московский государственный университет путей сообщения (МИИТ),

Московский государственный технологический университет «СТАНКИН»,

ГБОУ гимназия № 1572

 

«Исследование механизмов индексирования и поиска текстовых документов». 11 класс

Автор: Щеколдина Дарья, ученица 11 А класса ГБОУ гимназии 1572.

Руководители: Кутукин Сергей Александрович, учитель информатики, Логинова Марианна Владимировна, учитель информатики.

Научный консультант: Андреев Арк Михайлович, к.т.н.

Основной задачей, возникающей при работе с полнотекстовыми базами данных, является поиск документов по их содержанию. Однако ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, поисковыми машинами в Internet, зачастую не обеспечивают адекватный выбор информации по запросу пользователя.

Для успешного решения задачи регистрации неструктурированных текстовых данных и поиска этих данных по тексту в настоящей работе выполнены исследования возможных способов организации данных для их дальнейшего поиска, изучены механизмы индексирования и поиска текстовой информации. Также было проведено исследование возможностей улучшения качества поиска.

Интеллектуализация систем поиска текстовой информации требует учета ее смыслового содержания. Классические проблемы поиска документов – это синонимия (одно и то же понятие может быть выражено с использованием разных терминов – синонимов) и полисемия (один и тот же термин может иметь различные значения в различных контекстах). Традиционно эти проблемы решают путем расширения запроса семантически близкими словами из тезаурусов или из документов, возвращенных системой в ответ на запрос и помеченных пользователем как релевантные.

Ручное конструирование лингвистических ресурсов типа тезаурусов и онтологий (например, WordNet) очень трудоемко. Поэтому привлекательны автоматические методы получения и представления семантической информации. Ряд таких методов основан на использовании векторных моделей, где информация о совместной встречаемости слов извлекается из больших коллекций (корпусов) текстов и фиксируется в так называемых семантических или контекстных векторах. Сходство контекстных векторов, вычисляемое как скалярное произведение или расстояние, принимают за меру семантической близости слов. Из контекстных векторов формируются представления документов и запросов, которые отражают не только набор составляющих их слов, но и их семантику (смысл). Сходство таких представлений позволяет системе найти документы, которые могут и не содержать слов запроса, но соответствуют запрашиваемой теме.

Реализация результатов исследования позволяет повысить скорость и качество поиска текстовых документов.

Тип материала: Неизвестен (pdf)
Размер: 1.27 Mb
Количество скачиваний: 17
Просмотров: 85

Похожие материалы