Akapo Station
Частное собрание OCR литературы. Как это делается

Дорогие друзья!


Применяемая техника работы с библиотекой

1. Получение файлов книг из различных источников
2. Приведение файлов к принятому в библиотеке стандарту
3. Организация хранения файлов
4. Создание каталога библиотеки
5. Работа с книгами библиотеки

1. Держать открытым MS Excell с каталогом библиотеки. Комбинация
клавиш вызывает окно поиска. Искать по автору. При правильной подготовке каталога список произведений будет в пределах автора выстроен по алфавиту. Это упрощает работу.
1.1. Библиотека Мошкова.
1.1.1. Регулярное пополнение со страницы That news. Лучше это делать рано утром. Скорость выше.
1.1.2. Периодически просматривать каталог Самиздат. Бывает и там хорошее.
1.2. BestLibrary.
1.2.1. Нужно держать подписку на новости библиотеки, так удобнее.
1.2.2. Очень много произведений не входящих в библиотеку Мошкова.
1.2.3. Все файлы в формате DOC, сархивированы - новые zipом, старые сначала rar, а потом zip. но доступ к ним через промежуточную страницу, что крайне неудобно. Рекомендуется отключать загрузку рисунков.
1.3. Leo Library.
1.3.1. Раздел новости существует, но период его охвата небольшой. Нужно чаще заглядывать на страницу.
1.3.2. Файлы подготовлены либо самим автором, либо взяты от
нескольких знаменитых OCR-щиков.
1.3.3. Формат файлов текстовый, win-кодировка, неархивированы, но форматирование практически отсутствует, хотя и не безнадежное.
1.4. Издательство Вагриус.
1.4.1.
Много нового. Форматирование ужасное. Многие файлы не
поддаются дальнейшему форматированию. Это кредо Издательства?

2. Приведение файлов к принятому в библиотеке стандарту
2.1. Принятый стандарт. Файлы txt dos кодировка. Имя не более 8
символов. Расширение txt. Символов в строке 72. Отступ красной строки 4
символа. Название произведения - Как в предложениях. Через строчку Имя
и Фамилия автора. Так удобнее читать, но, к сожалению, менее полезно при
добавлении описания файла.
2.2. Имейте у себя pkzip и pkunzip и прописанные к ним пути в
autoexec.bat.
2.3. Файл упаковывается через архиватор zip в DOS Navigatorе.
Комбинация клавиш Shift+F1. Присваивается имя 6 символов от фамилии
автора на латинице + 2 порядковые цифры.
2.4. Упакованные файлы помещаются в подготовленные каталоги
библиотеки. С помощью DOS Navigatorа создаются описания файлов.
Комбинация клавиш Сначала Ctr+ k, затем Alt + Ins. DOS Navigator должен быть настроен, чтобы он по умолчанию создавал файл описания с названием FILES.BBS. В нем по умолчанию стоит для фалов описаний имя DESCRIPT.ION. Можно при этом широко использовать историю наименований, стрелочка в правом углу окошка, в которое вписываются имена. Очень удобно. Можно также для ускорения ввода использовать комбинации клавиш Shift + Ins для в буфер обмена и Ctrl + Ins для вставки из буфера обмена.
2.5. Файлы из библиотеки Мошкова удобно обрабатывать в редакторе
Aditor 3.10. Загружаем несколько файлов, затем выбираем акцию - удалить
Тэги во всех документах. Ок. Затем конвертировать в DOS для всех
документов. После чего чуть-чуть подредактировать в начале текста
(убрать лишнюю строку) и в конце (2 последние строчки остатки от
библиотеки Мошкова)
2.6. Файлы DOC, естественно редактируются в MS WORD. Нужно написать
несколько макросов для разных типов исходного форматирования. При этом
каждый абзац должен начинаться с пробела, это важно для последующего.
Сохранять их следует в формате Text DOS (без разбиения на строки).
2.7. Многие файлы TXT, также приходится форматировать через MS WORD,
согласно предыдущему пункту.
2.8. Подготовленные файлы, приведенные к формату 7 символов.txt
(обращаю внимание 7 а не 8) лежат в каталоге, в котором лежит и файл
txt_lst.com. Выделяем нужные файлы, затем в DOS Navigatorе нажимаем Alt+w, и в строке появившегося окна указываем txt_lst.com !.! !.! Указываем название файла куда будут записаны строчки  dnlist.bat. И Ок.
2.9. Запускаем dnlist.bat и все файлы приведены к нужному виду.

3. Организация хранения файлов
3.1. Создаем каталог TEXT или иной другой. Всегда придерживаемся
принципа DOS не более 8 символов.
3.2. Создаем внутри подкаталоги по тематике. Использовать латиницу не
обязательно.
3.3. При необходимости создаем внутри подкаталогов подкаталоги А, Б, В
и т.д. - для удобства. Глубина вложения не должна быть более 6, считая
от корня диска.
3.4. Про описания к файлам мы уже говорили. Внутри zip файла должен
быть только один файл TXT, указанного выше формата. В описании файла
пишем сначала фамилию автора на русском языке, при необходимости далее
его имя или инициалы. Начиная с позиции 32, это под буковкой р окна DOS
Navigatorа пишем с заглавной буквы без кавычек название произведения.
Если это часть сериала, то далее в скобках желательно указать название
сериала и порядковый номер произведения в сериале. Ну, в общем по вкусу.

4. Создание каталога библиотеки
4.1. Для создания каталога библиотеки используем утилиту exbbs.exe.
Используем ее так. Желательно создать каталог, в котором будет храниться
файл каталога библиотеки, допустим C:\$BBS. Поместим в него же файл
exbbs.exe. Запускаем exbbs.exe_ имя каталога с текстами_*.bbs_имя вновь создаваемого файла каталога. Получим Новый файл каталога в подкаталоге C:\$BBS. Если хотим в другом месте, то exbbs.exe_имя каталога с текстами_*.bbs_путь к каталогу с именем вновь создаваемого файла каталога.
4.2. Полученный файл есть файл TXT по сути. В котором по определенным
знакоместам (читай почти DBF) находятся имя подкаталога (это ранее
созданный подкаталог с темой, например DETECTIV) затем путь к файлу
затем автор и наконец название книги.
4.3. Запускем MS Excell, загружем в него полученный файл. При
открытии файла правильно выставляем границы начала каждого из разделов. Всего две операции.
4.4. Сортируем по полю авторов (1-я сортировка) и по полю названия
книги (2-я сортировка).
4.5. Не исключено что в конце таблицы (внизу) образовались пустые
строки - удалим их. Они образуются, если в исходных файлах FILES.BBS
были пустые строки.
4.6. Расширим до максимального поле название книги - важно для
экспорта в DBF. И произведем экспорт в формат DBF4.
4.7. Удалим поле путь к файлу и сохраним файл в формате XLS.

5. Работа с книгами библиотеки
5.1. Используем для работы с книгами программу Bookseer. Запускаем
ее, создаем новый каталог (удобно использовать в названии каталога, да и
предыдущих файлов дату создания - тогда не запутаешься).
5.2. Производим импорт из DBF. При это ставим галочку конвертировать
в формат WIN. С помощью мышки проводим соответствие между темой из DBF и темой в каталоге, путь к фалу - файл, автор-автор, название
книги-название. Делается это двойным щелчком при выделенном поле в DBF. Готово.
5.3. Смотреть файлы двойным щелчком. Установите в просмотрщике
моноширинный шрифт - COURIER.
5.4. В существующий каталог можно добавлять файлы и из других мест, по
одному. Более того, других форматов. Для этого нужно указать
дополнительный просмотрщик для импортируемых файлов - Internet Explorer. Даже если это будет файл DOC или PDF, то он в свою очередь вызовет для просмотра закрепленные за ними программы.
5.5. Чтобы для файлов дополнительных форматов не делать эту процедуру
каждый раз, можно для них завести другой файл каталога Bookseer. При
необходимости оба файла можно объединить.

6. Читать же книги отдельно, вне базы данных, лучше всего с помощью программы BookSelf.

—> Хронология OCR

—> Раскрытая книга

—> Книжная полка

—> Техника OCR

—> Утилиты

—> Гостевая книга

—> Разыскивается

—> Каталог книг

Написать письмо

[  В начало  |  Мои ссылки  |  Карта сайта  ]
Сайт управляется системой uCoz