Главная· Трекер· Поиск· RSS· Правила· FAQ· Группы· Пользователи · «Буквица» |
Loading... |
Error |
Пакетная загрузка - формирование
|
Главная » Релиз-группы и клубы по интересам » Проект «База журналов» |
| |
|
Автор | Сообщение |
---|---|
Bill_G |
Цитата: ftp://free-books.dontexist.com/magz/magz/Populyarnaya mehanika/Populyarnaya mehanika 02 2002-12 HQ.cbr: Недопустимый URL (не 'http' или 'ftp'). |
KaraBY |
Bill_G
Цитата: но а что же дальше? Цитата: я все таки не понимаю, какая информация содержится в пакетном файле, которую сайт не может взять сам из листинга файлов на фтп, при условии именования номеров журнала по шаблону Цитата: Цитата: номер - так как создано в раскладке номеров |
KaraBY |
Bill_G писал(а): Цитата: ftp://free-books.dontexist.com/magz/magz/Populyarnaya mehanika/Populyarnaya mehanika 02 2002-12 HQ.cbr: Недопустимый URL (не 'http' или 'ftp'). |
Bill_G |
Цитата: Я сегодня напишу анализатор кодировки файла, по крайней мере, этот случай будет отрабатываться. Как вариант (временный?) Цитата: Как вариант (временный?) я добавлю при загрузке выбор кодировки вручную из списка. |
KaraBY |
Bill_G писал(а): Цитата: Я сегодня напишу анализатор кодировки файла, по крайней мере, этот случай будет отрабатываться. Как вариант (временный?) Цитата: Как вариант (временный?) я добавлю при загрузке выбор кодировки вручную из списка. При наличии BOM будет корректно определять любую кодировку, не только кирилицу. Не понимает (не проверяет) - KOI-8 и DOS (cp866). Кстати, исправил один глюк - при заливке файла непосредственно на сервер - искажались русские имена (известный глюк функции basename). теперь все имена транслитерируются (транслитируются, транслитуются???) |
KaraBY |
Про именование файлов по шаблону. Ранее писалось:
Цитата: думаю, что формата Название Год(4 цифры)-номер за год(2 цифры вполне достаточно) напр. имен файлов типа: Популярная механика 2003-01 Популярная механика 2003-02-05 по поводу сканирования хочу дополнить свой предыдущий пост, с примером журнала, неплохо бы сканировать содержимое папки по маске имен файлов типа: Популярная механика 2003-01*.* Популярная механика 2003-02*.* Популярная механика 2003-03*.* то есть скрипту будет важно только с чего начинается имя файла, поскольку в конце имени могут быть какие-то служебные пометки, не говоря о различных расширениях |
Bill_G |
Цитата: Анализатор сделал. Не на 100% но корректно понимает кирилицу в следующих кодировках: вот попробуйте скормить ему это: ftp://free-books.dontexist.com/magz/2.txt Цитата: В-третьих, я пока не до конца представляю реализацию шаблона, пусть и с жесткими требованиями к формату. Например: шаблон "Популярная механика %y%y%y%y-%n%n[-%n%n]*.*" - что то такого типа (или "Популярная механика %4y-%2n[-%2n]*.*")? если говорить о виде нумерации год+месяц, то тут 2 чисел после года вполне хватит (даже если выходит ежедневно), по поводу сдвоенных номерв формат Популярная механика %y%y%y%y-%n%n[-%n%n]*.* вполне ему соответствует, единственная тонкость формата записи- если пропущено 2 и более номеров: например писать Популярная механика 2005-02-05 или Популярная механика 2005-02-03-04-05, если у нас валовая нумерация, то самая крупная подшивка которая мне попадалась ~7000 номеров (Nature magazine) то есть 4 цифр вполне достаточно Популярная механика %n%n%n%n*.* Популярная механика %n%n%n%n[-%n%n%n%n]*.* Цитата: Во первых, загрузка по шаблону возможна только для ftp. HTTP - шаблоны не поддерживает. Но это так, между прочим. Мы говорим сейчас о FTP. |
KaraBY |
Bill_G писал(а): Цитата: Анализатор сделал. Не на 100% но корректно понимает кирилицу в следующих кодировках: вот попробуйте скормить ему это: ftp://free-books.dontexist.com/magz/2.txt Цитата: ftp://free-books.dontexist.com/magz/magz/Популярная механика/Популярная механика 11 2003-09 HQ.cbr: Нет пути по указзанному URL. Цитата: Цитата: В-третьих, я пока не до конца представляю реализацию шаблона, пусть и с жесткими требованиями к формату. Например: шаблон "Популярная механика %y%y%y%y-%n%n[-%n%n]*.*" - что то такого типа (или "Популярная механика %4y-%2n[-%2n]*.*")? Цитата: если говорить о виде нумерации год+месяц, то тут 2 чисел после года вполне хватит (даже если выходит ежедневно), по поводу сдвоенных номерв формат Популярная механика %y%y%y%y-%n%n[-%n%n]*.* вполне ему соответствует, единственная тонкость формата записи- если пропущено 2 и более номеров: например писать Популярная механика 2005-02-05 или Популярная механика 2005-02-03-04-05 Кстати, возвращаясь к md5. Вы можете (отдельно?) сформировать файл со строками типа "имяфайла-md5"? Чтобы загрузить всё же md5 в базу, если сами файлы будем грузить по шаблону? |
Bill_G |
Цитата: Кстати, возвращаясь к md5. Вы можете (отдельно?) сформировать файл со строками типа "имяфайла-md5"? Чтобы загрузить всё же md5 в базу, если сами файлы будем грузить по шаблону? извиняюсь , распределял журналы по 2 дискам, и перенес ту папку Цитата: но для сдвоенных номеров 2005 - 2-4 должен иметь имя только "*2005-02-04*". |
KaraBY |
Bill_G писал(а): Цитата: Кстати, возвращаясь к md5. Вы можете (отдельно?) сформировать файл со строками типа "имяфайла-md5"? Чтобы загрузить всё же md5 в базу, если сами файлы будем грузить по шаблону? Но в любом случае - я вижу виндовую кодировку (тестируя), а посылаю - utf-8... Т.е. кроме кодировки внутри пакетного файла надо еще проверять кодировку на ftp сервере. Upd: Во всех случаях - проблемы с русскими именами - basename не берет русское имя файла ни в какой кодировке... Upd2: basename я переделал, файлы видятся и грузятся (см. http://magzdb.org/j/20), но боюсь проблемы будут у пользователей - которые захотят пакетную вызгрузку - ибо мы им дадим подобный список файлов, который надо скормить программе типа wget. а она с кодировками церемониться не будет. |
Bill_G |
Цитата: ибо мы им дадим подобный список файлов, который надо скормить программе типа wget. а она с кодировками церемониться не будет тут например с кириллицей все Ok http://free-books.dontexist.com/comics/ |
KaraBY |
Проявились два момента:
1. При пакетной загрузке даже не очень большого к-ва номеров (как в примере с Поп. механикой - 84 номера) процесс загрузки из-за необходимости каждый номер проверить на ftp сервере занимает слишком много времени и браузеры (не знаю, все или нет, но FF точно) вылетают по тайм-ауту. Нужно что-то делать... А если у нас будут сотни номеров (ТМ - около тысячи только номеров, а вариантов сканов еще больше, Смена - 1400)??? 2. Загрузил раскладку "Смены" - http://magzdb.org/j/25 Учитывая, что периодичность часто менялась, и нумерация (кроме погодной, но и она изобиловала двойными номерами) разнообразна - и валовая и с указанием месяца и с указанием даты - вид странички очень неприглядный. Есть ли какие предложения, как улучшить читаемость заглавной страницы изданий? |
Bill_G |
Цитата: Есть ли какие предложения, как улучшить читаемость заглавной страницы изданий? а вот поле дата я бы не стал выводить на главную -таблица растягивается, + мне кажется еще нужно поле - доп. название для каждого номера, например для подшивки вида: ВЯЗАНИЕ модно и просто. (спец. выпуск) Вяжем детям 2006-02 (от 1 до 14 лет)\ ВЯЗАНИЕ модно и просто. (спец. выпуск) для тех кто вяжет крючком 2008-06\ ВЯЗАНИЕ модно и просто. (спец. выпуск) Летняя коллекция\ ВЯЗАНИЕ модно и просто. (спец. выпуск) Летняя коллекция 2008\ ВЯЗАНИЕ модно и просто. (спец. выпуск) Шапки, шарфы, аксессуары - 2008\ ВЯЗАНИЕ модно и просто. (спец. выпуск) шарфики, пончо, палантины\ ВЯЗАНИЕ модно и просто. (спец. выпуск) шарфики, пончо, палантины 2\ Цитата: вылетают по тайм-ауту. Нужно что-то делать... А если у нас будут сотни номеров |
Bill_G |
завел 2 папки на фтп, 2.8 Тб
ftp://free-books.dontexist.com/magz/ A-S ftp://free-books.dontexist.com/magz2/ T-Я это все будет утрусаться и усушиваться, но структура такая |
KaraBY |
Bill_G писал(а): Цитата: Есть ли какие предложения, как улучшить читаемость заглавной страницы изданий? а вот поле дата я бы не стал выводить на главную -таблица растягивается, + мне кажется еще нужно поле - доп. название для каждого номера, например для подшивки вида: ВЯЗАНИЕ модно и просто. (спец. выпуск) Вяжем детям 2006-02 (от 1 до 14 лет)\ ВЯЗАНИЕ модно и просто. (спец. выпуск) для тех кто вяжет крючком 2008-06\ ВЯЗАНИЕ модно и просто. (спец. выпуск) Летняя коллекция\ ВЯЗАНИЕ модно и просто. (спец. выпуск) Летняя коллекция 2008\ ВЯЗАНИЕ модно и просто. (спец. выпуск) Шапки, шарфы, аксессуары - 2008\ ВЯЗАНИЕ модно и просто. (спец. выпуск) шарфики, пончо, палантины\ ВЯЗАНИЕ модно и просто. (спец. выпуск) шарфики, пончо, палантины 2\ Цитата: Цитата: вылетают по тайм-ауту. Нужно что-то делать... А если у нас будут сотни номеров |
Страница 2 из 8 |
Главная » Релиз-группы и клубы по интересам » Проект «База журналов» |