본문 바로가기
파이썬

<> 안에 한글이 있는 경우 HTML Entities 로 변환하기

by zgabriel 2024. 8. 30.
728x90

네이버 파파고를 사용해서 번역을 개발하고 있는데

 

< > 안에 한글이 있는 경우 태그로 인식해서 번역을 안하는 오류를 발견했다.

 

이럴 경우 < 는 &lt;로 >는 &gt; 로 변환해서 번역을 해야할 것

 

같아서 함수를 만들어봤다. 

 

입력된 문장에서 한글이 들어가 있는 < > 를 발견하면 html entities로 변환해주는

 

함수이다. 

 

import re

def prePrecessing(text):
    # 한글이 포함된 <와 >를 찾는 정규식 패턴
    pattern = re.compile(r'(<[^>]*[가-힣]+[^<]*>)')
   
    # 한글이 포함된 <와 >를 &lt;와 &gt;로 변환
    def replace_brackets(match):
        return match.group(0).replace('<', '&lt;').replace('>', '&gt;')
   
    # 변환된 문자열 반환
    return pattern.sub(replace_brackets, text)

# 예시 텍스트
text = "이것은 <b>한글</b> <텍스트> 입니다. 그리고 이것은 <영어> 텍스트입니다."

# 변환된 텍스트 출력
converted_text = prePrecessing(text)
print(converted_text)

 

 

 

반응형