У меня есть тысячи научных PDFs, которые я должен переименовать, у многих нет метаданных. Я хотел бы смочь создать automator действие, которое могло открыться, папка затем открывают каждый PDF, копируют заголовок и переименовывают документ и сохраняют в новой папке. Я потратил попытку часов понять это так, я был бы очень признателен за нет справку. У меня есть четверка Apple G5 2.26Gz, работающая os10.6 Спасибо!
Если я понимаю Вас правильно, Вы хотите извлечь бумажный заголовок, который присутствует на первой странице PDF (обычно в большей печати, чем краткий обзор и после текста), и используйте его в качестве имени файла.
Я боюсь, что Вы, вероятно, не найдете one-fits-all решение, так как там может варьироваться суммы нетекста заголовка в начале PDF, мешая извлекать фактический заголовок для PDFs, прибывающего из различных журналов.
ДЛЯ получения решения, которое работает на определенный процент от PDFs я был бы, вероятно,
Конечно, если можно найти инструмент, который может извлечь относительный размер текста, а также простой текст от PDF, который, вероятно, также значительно помог бы.
Удачу - было бы интересно видеть, находите ли Вы способ автоматизировать это! Главное, которое я делаю при загрузке статей сам, состоит в том, чтобы назвать их систематическим способом, но уверенный было бы замечательно иметь что-то, чтобы сделать это впоследствии...
Существует Mendeley, инструмент исследования онлайн, который позволяет Вам управлять научными публикациями.
Это имеет инструмент Mendeley Desktop, где можно перетащить PDFs. Mendeley автоматически проанализирует авторов и заголовки от PDFs.
Затем можно переименовать файл путем щелчка правой кнопкой, и "Переименовывают Файлы документов...". Можно также переименовать несколько файлов сразу.
Это доступно для Windows и OS X.
Если Вы не хотите использовать внешнее программное обеспечение и испытывать желание писать, что Ваш собственный сценарий пытается открыть Ваш pdfs как простой текст с текстовым редактором, то ищет шаблоны. Или ищите ключевое слово 'заголовок', или ищите слова в заголовке и посмотрите, где они появляются.
Дать Вам несколько примеров (научные журналы в химии):
ACS (американское Химическое Общество): заголовок появляется между скобками после второго возникновения ключевого слова '/title'
Wiley, публикующий: заголовок появляется между скобками после первого (и только) возникновение ключевого слова '/Title'
Публикация Rsc: не имеет заголовка в простом тексте.
Springer: это, кажется, зависит от журнала
Так как большинство журналов, которые я прочитал, от wiley или acs, ситуация выглядела бы довольно хорошей для меня.
Это могло быть планом: 1. изучите pdfs от издателей, от которых Вы читаете журналы чаще всего 2. выберите тех, которые имеют заголовок в простом тексте. это не должно быть проблемой, так как они все включают свое имя в последние Кбайты pdf 3. управляйте теми, которые имеют сценарий
В зависимости от того, сколько из журналов Вы читаете, используют тег заголовка для заголовка статьи, это могло быть полезно или нет.
Более общий подход был бы: PDF-> текст-> анализирует текст, который Вы могли запустить отсюда: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text