Open main menu
All
New
Search
Register
Login
Light
Dark
System
Search
All
New
Register
Login
akadmin
Joined
9 months ago
Sort :
Recently created
Recently created
Least recently created
Recently updated
Least recently updated
Select a tab
All gists (13)
All gists
13
Visibility :
All
All
Public
Unlisted
Private
Language :
All
All
Text (5)
Python (3)
YAML (1)
C# (1)
Bash (1)
Search
akadmin
/
OCR 분기 시점
0 likes
0 forks
1 files
Last active
9 months ago
1
force_ocr = False # OCR을 강제할지 여부 플래그
2
pdf_page_count = 0
3
4
# 3-1. PDF 텍스트 추출 시도 (PyMuPDF)
5
try:
6
print("Attempting text extraction from PDF...")
7
with fitz.open(stream=contents, filetype="pdf") as doc:
8
pdf_page_count = len(doc)
9
if doc.needs_pass:
10
print("PDF is password protected. Text extraction skipped, proceeding to OCR.")
akadmin
/
기술기획팀요청_PDF파싱_프롬프트
0 likes
0 forks
1 files
Last active
9 months ago
1
나는 지금 공문 관리 시스템을 만들고 있어. 너가 문서 분석을 잘한다고 해서. 사람이 직접 공문을 보고 찾아내던 정보를 너를 이용하여 처리하면 정말 많은 도움이 될 거 같아.
2
3
공문으로부터 다음과 같은 정보를 뽑아내고 싶어. 정보를 표로 정리 부탁해.
4
1. 공문 번호: 공문에 적혀있는 공문 번호야. 없는 경우는 없음으로 표기해줘
5
2. 공문 일자: 공문에 적혀져 있는 날짜야
6
3. 수신처: 공문을 받는 사람이 속한 조직명
7
4. 수신자: 공문을 받은 사람의 직책
8
5. 수신자(약자): 수신자 직책 약자
9
6. 발신처: 공문을 보낸 사람이 속한 조직명
10
7. 발신자: 공문을 보낸 사람의 직책
akadmin
/
app.py
0 likes
0 forks
1 files
Last active
9 months ago
1
#pdf ocr. 파싱 가능한지 확인해보고, 불가 or 내용이 너무 적으면 OCR수행
2
import
io
3
import
cv2
4
import
re
5
import
os
6
import
numpy
as
np
7
from
fastapi
import
FastAPI
,
File
,
UploadFile
,
HTTPException
,
Form
8
from
paddleocr
import
PaddleOCR
9
from
PIL
import
Image
10
import
statistics
Newer
Older
Powered by
Opengist
⋅
Load:
70ms
⋅
English
Čeština
Deutsch
English
Español
Français
Magyar
Italiano
日本語
Polski
Português
Русский
Türkçe
Українська
中文
繁體中文
⋅
Gitea