Автоматическое переименование PDF на основе заголовка

У меня есть тысячи научных PDFs, которые я должен переименовать, у многих нет метаданных. Я хотел бы смочь создать automator действие, которое могло открыться, папка затем открывают каждый PDF, копируют заголовок и переименовывают документ и сохраняют в новой папке. Я потратил попытку часов понять это так, я был бы очень признателен за нет справку. У меня есть четверка Apple G5 2.26Gz, работающая os10.6 Спасибо!

4
задан 10.04.2011, 17:38

3 ответа

Если я понимаю Вас правильно, Вы хотите извлечь бумажный заголовок, который присутствует на первой странице PDF (обычно в большей печати, чем краткий обзор и после текста), и используйте его в качестве имени файла.

Я боюсь, что Вы, вероятно, не найдете one-fits-all решение, так как там может варьироваться суммы нетекста заголовка в начале PDF, мешая извлекать фактический заголовок для PDFs, прибывающего из различных журналов.

ДЛЯ получения решения, которое работает на определенный процент от PDFs я был бы, вероятно,

  • используйте pdf2ps Ghostscript и ps2ascii для извлечения простого текста из PDF
  • проанализируйте этот простой текст для заголовка журнала где-нибудь в первом килобайте или так
  • в зависимости от журнала пытаются придумать эвристику, извлекающую бумажный заголовок из простого текста.

Конечно, если можно найти инструмент, который может извлечь относительный размер текста, а также простой текст от PDF, который, вероятно, также значительно помог бы.

Удачу - было бы интересно видеть, находите ли Вы способ автоматизировать это! Главное, которое я делаю при загрузке статей сам, состоит в том, чтобы назвать их систематическим способом, но уверенный было бы замечательно иметь что-то, чтобы сделать это впоследствии...

0
ответ дан 07.12.2019, 19:56

Существует Mendeley, инструмент исследования онлайн, который позволяет Вам управлять научными публикациями.

Это имеет инструмент Mendeley Desktop, где можно перетащить PDFs. Mendeley автоматически проанализирует авторов и заголовки от PDFs.

enter image description here

Затем можно переименовать файл путем щелчка правой кнопкой, и "Переименовывают Файлы документов...". Можно также переименовать несколько файлов сразу.

enter image description here

Это доступно для Windows и OS X.

7
ответ дан 07.12.2019, 19:56

Если Вы не хотите использовать внешнее программное обеспечение и испытывать желание писать, что Ваш собственный сценарий пытается открыть Ваш pdfs как простой текст с текстовым редактором, то ищет шаблоны. Или ищите ключевое слово 'заголовок', или ищите слова в заголовке и посмотрите, где они появляются.

Дать Вам несколько примеров (научные журналы в химии):

ACS (американское Химическое Общество): заголовок появляется между скобками после второго возникновения ключевого слова '/title'

Wiley, публикующий: заголовок появляется между скобками после первого (и только) возникновение ключевого слова '/Title'

Публикация Rsc: не имеет заголовка в простом тексте.

Springer: это, кажется, зависит от журнала

Так как большинство журналов, которые я прочитал, от wiley или acs, ситуация выглядела бы довольно хорошей для меня.

Это могло быть планом: 1. изучите pdfs от издателей, от которых Вы читаете журналы чаще всего 2. выберите тех, которые имеют заголовок в простом тексте. это не должно быть проблемой, так как они все включают свое имя в последние Кбайты pdf 3. управляйте теми, которые имеют сценарий

В зависимости от того, сколько из журналов Вы читаете, используют тег заголовка для заголовка статьи, это могло быть полезно или нет.

Более общий подход был бы: PDF-> текст-> анализирует текст, который Вы могли запустить отсюда: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

0
ответ дан 07.12.2019, 19:56

Теги

Похожие вопросы