akadmin

Unito 1 year ago

akadmin / OCR 분기 시점

0 mi piace

0 forks

1 files

Ultima volta attivo 1 year ago

1	force_ocr = False # OCR을 강제할지 여부 플래그
2	pdf_page_count = 0
3
4	# 3-1. PDF 텍스트 추출 시도 (PyMuPDF)
5	try:
6	print("Attempting text extraction from PDF...")
7	with fitz.open(stream=contents, filetype="pdf") as doc:
8	pdf_page_count = len(doc)
9	if doc.needs_pass:
10	print("PDF is password protected. Text extraction skipped, proceeding to OCR.")

akadmin / 기술기획팀요청_PDF파싱_프롬프트

0 mi piace

0 forks

1 files

Ultima volta attivo 1 year ago

1	나는 지금 공문 관리 시스템을 만들고 있어. 너가 문서 분석을 잘한다고 해서. 사람이 직접 공문을 보고 찾아내던 정보를 너를 이용하여 처리하면 정말 많은 도움이 될 거 같아.
2
3	공문으로부터 다음과 같은 정보를 뽑아내고 싶어. 정보를 표로 정리 부탁해.
4	1. 공문 번호: 공문에 적혀있는 공문 번호야. 없는 경우는 없음으로 표기해줘
5	2. 공문 일자: 공문에 적혀져 있는 날짜야
6	3. 수신처: 공문을 받는 사람이 속한 조직명
7	4. 수신자: 공문을 받은 사람의 직책
8	5. 수신자(약자): 수신자 직책 약자
9	6. 발신처: 공문을 보낸 사람이 속한 조직명
10	7. 발신자: 공문을 보낸 사람의 직책

akadmin / app.py

0 mi piace

0 forks

1 files

Ultima volta attivo 1 year ago

1	#pdf ocr. 파싱 가능한지 확인해보고, 불가 or 내용이 너무 적으면 OCR수행
2	import io
3	import cv2
4	import re
5	import os
6	import numpy as np
7	from fastapi import FastAPI, File, UploadFile, HTTPException, Form
8	from paddleocr import PaddleOCR
9	from PIL import Image
10	import statistics

Più nuovi Più vecchi

Creato da Opengist ⋅ Load: 69ms⋅

Italiano

⋅ Gitea