Автоматический парсинг текста цитаты в академических ссылках

Question

Автоматический парсинг текста цитаты в академических ссылках

Есть ли какое-либо программное обеспечение (или псевдокод), который может автоматически просканировать часть текста (или вставляемый в инструмент или считанный из .doc/.pdf) и определить данные цитаты с помощью стандартных форматов? Данные были бы затем разделены на свои составляющие поля и экспортированы в XML, CSV или некотором другом формате структурированных данных. Я посмотрел на cb2Bib, но он только смог извлечь год из ссылок стиля Гарварда, который недостаточен.

18

citations parsing

задан Alistair Knock 18.08.2009, 11:56

Ссылка

4 ответа

Ash · Answer 1 · 07.12.2019, 10:30

Попробуйте инструмент, такой как Regex Buddy или Экспресс.

Если Вы не программист, Регулярные выражения могут быть немного пугающими, но они действительно не что трудно, особенно с достойным инструментом как одно из вышеупомянутого.

Вот пример кого-то использующего Регулярные выражения для извлечения цитат:

Цитата, анализирующая регулярное выражение

Abhinav · Answer 2 · 07.12.2019, 10:30

Zotero является плагином для Firefox, который делает это для веб-контента. Не уверенный, если существует подобный инструмент для documents/pdfs

sblair · Answer 3 · 07.12.2019, 10:30

Mendeley должен смочь сделать это. Это может импортировать PDFs и затем экспортировать метаданные в BibTeX, RIS и EndNote XML. Это является свободным загрузить и является межплатформенным.

Править: Я протестировал это на нескольких документах. Импорт PDF, действительно кажется, работает хорошо на ссылки, которые отформатированы правильно. Для документа я создал ЛАТЕКС использования, все ссылки с автором в форме "Smith, J." или "J. Smith", и т.д., был импортирован прекрасный. Если автор является компанией (отдельное слово), или ссылка является неполной, она не работает также. Извлеченные ссылки могут легко быть отредактированы и экспортированы в BibTeX и т.д.

Kaypro II · Answer 4 · 07.12.2019, 10:30

Я видел, что программа Westlaw делает это для легальных цитат, но это, вероятно, не, что Вы ищете. Ссылочный менеджер мог бы сделать что-то как этот для академических форматов, но я никогда не использовал его.

Dav Clark · Answer 5 · 07.12.2019, 10:30

Это, вероятно, принадлежит больше как комментарий к @Abhinav, но zotero определенно только обрабатывает структурированные данные, поскольку Вы нашли бы описанным здесь:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Интересный взлом мог бы быть должен попытаться записать программу, которая использует каждую цитату в качестве поискового запроса в Вашей любимой базе данных, затем использует что-то как zotero для генерации касательно информации. Вы могли также загрузить структурированную информацию с сервисов как citeUlike. Сообщите мне, заканчиваете ли Вы события что-то как этот! (поднимите его на GitHub, если Вы делаете ;).

Автоматический парсинг текста цитаты в академических ссылках

4 ответа

Теги

Похожие вопросы