5.22.2019

PDFMiner.six

PDFMiner.six is a fork of PDFMiner using six for Python 2+3 compatibility

PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing text data. PDFMiner allows one to obtain the exact location of text in a page, as well as other information such as fonts or lines. It includes a PDF converter that can transform PDF files into other text formats (such as HTML). It has an extensible PDF parser that can be used for other purposes than text analysis.

Webpage: https://github.com/pdfminer/
Download (PyPI): https://pypi.python.org/pypi/pdfminer.six/

Code using pdfminer:

from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.layout import LTTextBoxHorizontal
import sys, os

os.environ["PYTHONIOENCODING"] = 'utf-8'
sys.stdout.reconfigure(encoding='utf-8')
#print(sys.stdout.encoding)
#print(os.environ["PYTHONIOENCODING"])

document = open('Pfizer1.pdf', 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(document):
interpreter.process_page(page)
layout = device.get_result()
for element in layout:
if isinstance(element, LTTextBoxHorizontal):
obj = element._objs[0]
print("x_cor: %.2f " % obj.bbox[0])
print("y_cor: %.2f" % obj.bbox[1])
print("length: %.2f" % obj.bbox[2])
print("height: %.2f" % obj.bbox[3])
text = obj.get_text().replace('\n','')
#btext = text.encode(encoding='utf-8')
print("text: ", text)
print("--------------------")

小C無名酷

5.22.2019

pdf2txt

pdf2txt.py

PDFMiner.six

沒有留言:

張貼留言

追蹤者

關於我自己