Интеллектуальные средства для электронной библиотеки

(фрагменты с разных других форумов – нужно в одном месте собирать – извиняюсь за рваный текст)

Мы во многом преуспели в деле оцифровки печатных информационных источников и создали огромные информационные массивы оцифрованной литературы. Настало время задуматься и о новом качественном подходе к работе с информационными ресурсами.

В настоящий момент поиск осуществляется не интеллектуально, а по поисковой лексеме (лексемам). Функции т.н. "расширенного поиска" помогают количественно, но не качественно. Совершенно отсутствует функциональность на манер "найти похожее".

Мои соображения на этот счет.

1. Все файлы должны иметь текстовый слой.

2. Тестовый слой подвергается обработке:

2.1. Предобработка:
- приведение в нижний регистр
- удаление всех символов кроме "а-я"
- подчистка за FineReader программными средствами (удаление комбинаций символов)
- подчистка за FineReadep (при помощи AfterScan)
- исправление орфографии при помощи ORFO 2014
- удаление всех слов, длиной меньше 3 символов

2.2. Нормализация слов при помощи программы Mystem

3. Создание частотного словаря

4. Десять слов с наибольшей частотой упоминания – это облако тегов данного файла, который можно использовать в качестве его сжатой смысловой характеристики для реализации функции "найти похожее".

Все вышеописанное сложно реализовать в автоматическом режиме. Но все очень легко получается при помощи псевдоавтоматического способа при помощи скрипта на AutoIt

Условимся, что есть некий файл формата djvu у которого уже есть текстовый слой. На данном этапе этого достаточно.

Следующий этап – попытаться охарактеризовать книгу в систематический способ, создать нечто аналогичное библиотечному УДК, но только в автоматическом режиме. Я исхожу из гипотезы, что смысловое содержание книги достаточно полно характеризуется её словарным набором. Чем чаще повторяется то или иное слово в тексте, тем выше вероятность, что именно это слово характеризует смысл написанного. Как оказалось тут есть интересные неожиданности, об этом ниже.

Я предполагаю, что группа слов (к примеру 10 шт) которые наиболее часто повторяются, может достаточно точно послужить неким ключем, соответствие которому (полное или частичное – тут нужно экспериментировать) поможет найти другую книгу, с аналогичным содержанием и с аналогичным (или близким) составом наиболее употребимых слов.

Чтобы составить частотный словарь нужно почистить от мусора текстовый слой. Для этого:

1.При помощи фрагмента скрипта на AutoIt "выдергиваю" текстовый слой из djvu+OCR при помощи штатной утилиты djvused.exe, и сохраняю его в качестве самостоятельного временного txt файла. (готово)

2. Следующий фрагмент скрипта берет этот txt файл, помещает его содержимое в стринговую переменную, над которой проводится ряд "чисток" (все в нижний регистр, бинарные замены, стринговые замены, перевод из случайной латиницы в кириллицу, удаление знаков пунктации, псевдографики и управляющих кодов, лишних пробелов, коротких слов). Результаты работы сохраняю в транзитный txt. (готово, на i7 работает шустро, но уже на i3 – ощутимо тормозит)

3. Следующий фрагмент скрипта запускает AfterScan и скармливает ему txt с предыдущего этапа. (в работе)

4. Не знаю, возможно потребуется еще ORFO пройтись и поисправлять орфографию. (Буду смотреть)

5. Все вышеперечисленное – предварительный этап, перед нормализацией (превратить "бетонов", "бетоны", "бетонам" в "бетон"

. Я не силен в программировании, здесь мне нужна помощь. Пока остановился на Mystem, которая к тому-же консольная поэтому её легко и просто будет использовать для получения очередного транзитного txt (еще не начинал)

6. Формирование частотного словаря и определение плотности ключевых слов. Казалось-бы сложный этап. Но удалось его решить очень красиво и элегантно парой десятков строчек кода.
(с использованием объекта Scripting.Dictionary – сам толком ничего не понял, просто слизал и оно классно работает ).

Невтерпежь сильно мучает, поэтому без 3, 4,5 этапов посмотрел чего получается. Взял 2 книги
строительная теплофизика (богословский)
строительная теплофизика (ильинский)

Книги примерно равны по объему и тематике, немножко разные акценты. Самое то, что нужно. Частотный словарь показал, что группа "воздух-температура-поверхность-ограждение-тепло" четко и однозначно "в отрыве". Т.е. гипотеза вроде подтверждается.
Что любопытно "воздух" неожиданно в сильном отрыве. И это все даже без нормализации. Любопытная особенность.

Все пока очень предварительно.

Пазл сложился!!!!!
Сегодня во сне (Менделееву привет) было найдено решение над которым думал год.
Частотный словарь, даже визуализированный, даже нормализированный корпусом русского языка мне не нравился. Категорически. Долго объяснять, но это было не то. К тому-же очередной перепев на тему игрушки от Вордле, хотя и сильно модернизированный и уже этим прорывной даже на уровне концепции. Короче я не знал что дальше, решения не было, проект по Вики встал, скрипты и заготовки разбросаны по компу, в голове каша а тут еще украинские события….
Сегодня пазл сложился – не валить частотник в кучу а нормализовать и разбить на части речи – существительное, прилагательное и глагол – "суть" – "окрас" - "действие". И уже потом визуализировать!!!
Все великое просто

Сергей Ружинский Профессиональный строитель Карма: 2282.2 Звание: Опытный Сообщений: 4413 Регистрация: 25.08.2003 Город: Харьков	#1 26.11.13 11:32 (фрагменты с разных других форумов – нужно в одном месте собирать – извиняюсь за рваный текст) Мы во многом преуспели в деле оцифровки печатных информационных источников и создали огромные информационные массивы оцифрованной литературы. Настало время задуматься и о новом качественном подходе к работе с информационными ресурсами. В настоящий момент поиск осуществляется не интеллектуально, а по поисковой лексеме (лексемам). Функции т.н. "расширенного поиска" помогают количественно, но не качественно. Совершенно отсутствует функциональность на манер "найти похожее". Мои соображения на этот счет. 1. Все файлы должны иметь текстовый слой. 2. Тестовый слой подвергается обработке: 2.1. Предобработка: - приведение в нижний регистр - удаление всех символов кроме "а-я" - подчистка за FineReader программными средствами (удаление комбинаций символов) - подчистка за FineReadep (при помощи AfterScan) - исправление орфографии при помощи ORFO 2014 - удаление всех слов, длиной меньше 3 символов 2.2. Нормализация слов при помощи программы Mystem 3. Создание частотного словаря 4. Десять слов с наибольшей частотой упоминания – это облако тегов данного файла, который можно использовать в качестве его сжатой смысловой характеристики для реализации функции "найти похожее". Все вышеописанное сложно реализовать в автоматическом режиме. Но все очень легко получается при помощи псевдоавтоматического способа при помощи скрипта на AutoIt Условимся, что есть некий файл формата djvu у которого уже есть текстовый слой. На данном этапе этого достаточно. Следующий этап – попытаться охарактеризовать книгу в систематический способ, создать нечто аналогичное библиотечному УДК, но только в автоматическом режиме. Я исхожу из гипотезы, что смысловое содержание книги достаточно полно характеризуется её словарным набором. Чем чаще повторяется то или иное слово в тексте, тем выше вероятность, что именно это слово характеризует смысл написанного. Как оказалось тут есть интересные неожиданности, об этом ниже. Я предполагаю, что группа слов (к примеру 10 шт) которые наиболее часто повторяются, может достаточно точно послужить неким ключем, соответствие которому (полное или частичное – тут нужно экспериментировать) поможет найти другую книгу, с аналогичным содержанием и с аналогичным (или близким) составом наиболее употребимых слов. Чтобы составить частотный словарь нужно почистить от мусора текстовый слой. Для этого: 1.При помощи фрагмента скрипта на AutoIt "выдергиваю" текстовый слой из djvu+OCR при помощи штатной утилиты djvused.exe, и сохраняю его в качестве самостоятельного временного txt файла. (готово) 2. Следующий фрагмент скрипта берет этот txt файл, помещает его содержимое в стринговую переменную, над которой проводится ряд "чисток" (все в нижний регистр, бинарные замены, стринговые замены, перевод из случайной латиницы в кириллицу, удаление знаков пунктации, псевдографики и управляющих кодов, лишних пробелов, коротких слов). Результаты работы сохраняю в транзитный txt. (готово, на i7 работает шустро, но уже на i3 – ощутимо тормозит) 3. Следующий фрагмент скрипта запускает AfterScan и скармливает ему txt с предыдущего этапа. (в работе) 4. Не знаю, возможно потребуется еще ORFO пройтись и поисправлять орфографию. (Буду смотреть) 5. Все вышеперечисленное – предварительный этап, перед нормализацией (превратить "бетонов", "бетоны", "бетонам" в "бетон" . Я не силен в программировании, здесь мне нужна помощь. Пока остановился на Mystem, которая к тому-же консольная поэтому её легко и просто будет использовать для получения очередного транзитного txt (еще не начинал) 6. Формирование частотного словаря и определение плотности ключевых слов. Казалось-бы сложный этап. Но удалось его решить очень красиво и элегантно парой десятков строчек кода. (с использованием объекта Scripting.Dictionary – сам толком ничего не понял, просто слизал и оно классно работает ). Невтерпежь сильно мучает, поэтому без 3, 4,5 этапов посмотрел чего получается. Взял 2 книги строительная теплофизика (богословский) строительная теплофизика (ильинский) Книги примерно равны по объему и тематике, немножко разные акценты. Самое то, что нужно. Частотный словарь показал, что группа "воздух-температура-поверхность-ограждение-тепло" четко и однозначно "в отрыве". Т.е. гипотеза вроде подтверждается. Что любопытно "воздух" неожиданно в сильном отрыве. И это все даже без нормализации. Любопытная особенность. Все пока очень предварительно.
Сергей Ружинский Пользователь Сообщений: 4413 Регистрация: 25.08.2003
	Была ли полезна информация? Цитировать Имя

Сергей Ружинский Профессиональный строитель Карма: 2282.2 Звание: Опытный Сообщений: 4413 Регистрация: 25.08.2003 Город: Харьков	#2 26.11.13 11:34 этап 5 сделан пока не готов комментировать – на осмыслении взял две собственные книги и попытался вручную для них составить частотный словарь из нормализованных слов Корпуса русского языка – совпадение с результатом работы программы около 80% Считаю это очень замечательным результатом. Прикрепленные файлы на сайт.pdf (9.93 МБ)
Сергей Ружинский Пользователь Сообщений: 4413 Регистрация: 25.08.2003
	Была ли полезна информация? Цитировать Имя

Сергей Ружинский Профессиональный строитель Карма: 2282.2 Звание: Опытный Сообщений: 4413 Регистрация: 25.08.2003 Город: Харьков	#3 10.11.14 11:31 Пазл сложился!!!!! Сегодня во сне (Менделееву привет) было найдено решение над которым думал год. Частотный словарь, даже визуализированный, даже нормализированный корпусом русского языка мне не нравился. Категорически. Долго объяснять, но это было не то. К тому-же очередной перепев на тему игрушки от Вордле, хотя и сильно модернизированный и уже этим прорывной даже на уровне концепции. Короче я не знал что дальше, решения не было, проект по Вики встал, скрипты и заготовки разбросаны по компу, в голове каша а тут еще украинские события…. Сегодня пазл сложился – не валить частотник в кучу а нормализовать и разбить на части речи – существительное, прилагательное и глагол – "суть" – "окрас" - "действие". И уже потом визуализировать!!! Все великое просто
Сергей Ружинский Пользователь Сообщений: 4413 Регистрация: 25.08.2003
	Была ли полезна информация? Цитировать Имя

Евгений Симашкевич Представитель компании Карма: 1059.9 Звание: Опытный Сообщений: 2255 Регистрация: 28.09.2006 Город: Майкоп	#4 10.11.14 18:16 Спасибо Сергей, что вы вне политики! Успехов в нелёгком труде осмысления сделанного!
Евгений Симашкевич Пользователь Сообщений: 2255 Регистрация: 28.09.2006
	Была ли полезна информация? Цитировать Имя

Сергей Ружинский Профессиональный строитель Карма: 2282.2 Звание: Опытный Сообщений: 4413 Регистрация: 25.08.2003 Город: Харьков	#5 12.11.14 14:39 R язык - а вот и готовая визуализация. Хотя до "суть-окрас-действие" еще не дошли. Или я еще пока не нашел. Но в любом случае радует, что процесс идет, причем бурно. Огорчает, что все также используют древнючий майстем от Яндекса - т.е. машинноориентированный корпус русскогоя языка походу ДСП. Вот прикольная инфографика от Матрунич - в этом что-то есть. бум дум. Сравнение поздравительных речей Путина, Лукашенко и Турчинова на День Победы 2014 Для только въезжающих в "R" - http://psylab.info/R:Литература последний майстем 3.0, а то опять куда-то спрячут. до этого все делалось на 2.1 Прикрепленные файлы mystem-3.0-win7-32bit.zip (15.51 МБ)
Сергей Ружинский Пользователь Сообщений: 4413 Регистрация: 25.08.2003
	Была ли полезна информация? Цитировать Имя