Develop
2013.04.23 16:21
[c#] 정규표현식을 이용한 문자열에서 태그 제거함수
조회 수 17816 댓글 0
첨부 '1' |
|
---|
코드와 실행 내용
using System.Text.RegularExpressions; public string remove_html_tag(string html_str) { // 정규표현을 이용한 HTML태그 삭제 return Regex.Replace(html_str, @"[<][a-z|A-Z|/](.| )*?[>]", ""); }
[] 이것은 한글자가 동일하다는 의미이며 이안에는 범위를 지정할 수 있다. [a-z]라고 하면 a부터 z까지 한글자 라는 의미가 된다.
버티컬 바(Vertical bar)또는 파이프(pipe) 이라고 하는 | 이기호는 or의 의미가 된다. 프로그래밍에서도 버티컬 바 두개는 or 연산자이다. 따라서 [a-z|/]는 a부터z까지 또는 / 문자 한글자 를 의미한다.[<][a-z|/] 이것의 의미는 첫번째 글자는 < 이고 두번째 글자는 a부터 z까지 하나 이거나 / 인것 이라는 의미가 된다. 구둣점(.)은
(new line)을 제외한 모든 글자를 의미 하므로 뉴라인문자 까지 포함한 모든 문자의 하나 또는 그이상의 문자열을 의미하기 위해서는 (.|
) 이라고 표현해야 한다. *? 는 가능하면 반복이 적은 첫번째 일치를 의미한다. 따라서 [<][a-z|/](.|
)*?[>] 는 <으로 시작하고 두번째 글자는 a부터 z까지 이거나 / 이며 중간에 한자또는 그이상의 어떤 글자가 있어도 되지만 끝부분에는 가능하난 반복이 적은 첫번째 > 까지를 찾아서 지우게 되므로 태그만 제거된다.
정규표현은 Case senstive 하기 때문에 (이말은 대소문자를 구분한다는 말임) 추가로 [a-z|A-Z] 헝태로 코드에서 바꿔 주면 된다. 역시 or을 의미하는 파이프를 사용해 주면된다.
출처 : http://blog.naver.com/devace?Redirect=Log&logNo=20063206854
번호 | 분류 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|---|
397 | Develop | [c++] Win32 API 기본 출력인 MessageBox() 함수 사용 예제.. | hooni | 2013.04.23 | 12650 |
396 | Develop | [c] 파이프(popen)로 다른 프로세스 실행결과 가져오기 | hooni | 2013.04.23 | 8401 |
395 | Develop | [c] 도메인(호스트)으로 IP정보 알아오기.. (nslookup과 비슷) | hooni | 2013.04.23 | 6934 |
394 | Develop | [c] UTF-8을 EUC-KR로 변환.. (iconv) | hooni | 2013.04.23 | 20145 |
393 | Develop | [c] 바로 보고 정리할 것.. ㅋㄷㅋㄷ | hooni | 2013.04.23 | 7139 |
392 | Develop | [c] openssl 샘플코드.. 어려움 ㅠㅠ | hooni | 2013.04.23 | 7027 |
391 | Develop | [c] 가변인자 함수(printf와 같은..) | hooni | 2013.04.23 | 7179 |
390 | Develop | [c#] BHO 한샘툴바랑 동현툴바.. | hooni | 2013.04.23 | 2208 |
389 | Develop | [c++] Win32API를 이용한 ExitWindowsEx 사용한 예제코드 | hooni | 2013.04.23 | 7965 |
388 | Develop | [c#] mfc 기반의 웹서비스 서버/클라이언트 샘플과 예제 소스 | hooni | 2013.04.23 | 2073 |
387 | Develop | [c] 텍스트 파일(로그)을 정해진 라인 단위로 쪼개주는 코드 | hooni | 2013.04.23 | 7050 |
386 | Develop | [c] 네트워크 트래릭 모니터링.. 졸업작품.. 2 | hooni | 2013.04.23 | 11051 |