728x90

DVD 한글자막을 텍스트로 추출


SE 3.3.14 버전으로 맞춤법 검사를 해봤는데요.

제대로 추출하는 경우도 있지만 제대로 추출하지 못하는 경우 마져도 사용자에게 물어보지 않고 알아서(?) 변환을 해버리네요.

한마디로 틀린대로 그냥 추출을 해버린다는 얘기입니다.


하는 과정에 대해 설명을 하겠습니다.

기본 설치를 하면 아래처럼 폴더에 영문 OCR 데이터는 있는데 한글용 OCR 데이터는 없습니다.



SE 자막툴의 메뉴를 한글화 해주신 도움돌님 사이트에 가셔서 http://aav639.blog.me/150142070038

한글OCR 데이터를 다운로드 받은 다음 압축을 풀고서 이 폴더에 복사를 하면 아래 그림처럼 나옵니다.



이제 한글 sub/idx 자막을 마우스로 끌어다가 자막툴 위에 올려놓으면 OCR 을 실행하는 창이 뜹니다.

언어를 한글로 변경하고 OCR 자동 맞춤법 검사 옵션을 해제하고 테스트를 해도

역시나 자동으로 알아서 죽 변환을 해버리네요.

이미지로 된 것을 추출할 때 잘못 추출된 것을 그대로 잘못 인식하거나....

자막에 영문이 혼용되어 있는 경우에 영문을 인식해야 하는데 영문글자를 인식하지 못하고 한글로 이상한 글자로 변환을 해버립니다.



변환속도는 엄청나게 빠르게 변환을 하네요.

영자막도 같이 OCR 추출해서 똑같이 보면서 잘못 변환한 걸 수정하라고 할 수도 없고 ㅠㅠㅠ


제가 아직 OCR 데이터 DB 축척하는 것에 대해서는 관심을 갖고 보지 않아서 명쾌한 답변은 드릴 수가 없네요.

나중에라도 파악하게 되면 그때 답변드린다는 말 밖에는 ....


728x90
블로그 이미지

Link2Me

,