data summary - 국민일보 빅데이터 분석

뉴스 댓글 분석 기법
Data Summary

① 분석 댓글 수를 한정하기 위한 Filtering 기준

총 댓글 수
121,143,526개

(사회 51,158,860개 + 정치 69,984,666개)

최종분석 댓글 수
502,004개

(사회 279,318개 + 정치 231,686개)

노이즈 토픽문서란?

토픽모델링 시 어떤 토픽에도 속하지 않는 문서이다. 우리 분석에서는 어떤 토픽에도 분류되지 않은 댓글을 의미한다. (BERTopic 분류상 -1 토픽)

총 댓글 수

121,143,526개
(사회 51,158,860 + 정치 69,984,666)

최종 분석 댓글 수

502,004개
(사회 270,318 + 정치 231,686)

① 분석 댓글 수를 한정하기 위한 Filtering 기준

총 댓글 수
121,143,526개

(사회 51,158,860개 + 정치 69,984,666개)

필터 W

댓글이 20개 이상 달린 기사의 댓글

필터 W

댓글의 길이 3이상 300글자 이하인 댓글

필터 Y

댓글의 공감 + 비공감 수가 20 이상인 댓글

필터 Z

4,743,788개 (사회 2,405,061개 + 정치 2,338,727개) + 노이즈 토픽 문서 제거

최종분석 댓글 수
502,004개

(사회 279,318개 + 정치 231,686개)

노이즈 토픽문서란?

토픽모델링 시 어떤 토픽에도 속하지 않는 문서이다. 우리 분석에서는 어떤 토픽에도 분류되지 않은 댓글을 의미한다. (BERTopic 분류상 -1 토픽)

총 댓글 수

121,143,526개
(사회 51,158,860 + 정치 69,984,666)

최종 분석 댓글 수

502,004개
(사회 270,318 + 정치 231,686)

② 분석 댓글의 혐오 여부 판단 기법

혐오유형 10가지

방법론

데이터 스크래핑과 댓글 전처리 등의 과정에는 프로그래밍 언어인 파이썬(Python) 패키지를 사용했고, 혐오 내용 분류에는 스마일게이트(Smilegate) AI에서 공개한 언스마일(Unsmile) 한국어 혐오 분류 모델을 활용했다. 혐오 분류 모델은 혐오단어 매칭을 통해 댓글의 혐오 수준을 파악하고, 단어 앞뒤의 맥락을 고려해 혐오문장을 판단하는 문장 수준의 딥러닝 기반 자연어처리 분류 모델이다. 해당 모델은 악플과 일반 댓글을 이분법적으로 구분하는 것을 넘어 총 10종류의 혐오 유형을 분류한다. 그 종류는 여성/가족, 남성, 성소수자, 인종/국적, 연령, 지역, 종교, 기타혐오, 악플/욕설, 비혐오(clean) 등 총 10가지다. 동시에 BERTopic 알고리즘으로 토픽모델링 분석을 진행했다. 혐오 분류 모델이 미리 학습된 10가지 혐오 유형을 각각 분류하는 지도학습기반의 알고리즘이라면, BERTopic은 여러 댓글을 함께 분석해 맥락이 비슷한 댓글을 하나의 군집으로 묶는 비지도학습기반 알고리즘이다. 이러한 토픽모델링 기법은 미리 정해놓은 혐오 유형 외에 댓글 텍스트에 내재한 새로운 주제와 맥락을 발견한다.

we stop hate

국민일보 빅데이터 분석

뉴스 댓글 분석 기법
Data Summary

총 댓글 수
121,143,526개

(사회 51,158,860개 + 정치 69,984,666개)

최종분석 댓글 수
502,004개

(사회 279,318개 + 정치 231,686개)

총 댓글 수
121,143,526개

(사회 51,158,860개 + 정치 69,984,666개)

필터 W

댓글이 20개 이상 달린 기사의 댓글

필터 W

댓글의 길이 3이상 300글자 이하인 댓글

필터 Y

댓글의 공감 + 비공감 수가 20 이상인 댓글

필터 Z

4,743,788개 (사회 2,405,061개 + 정치 2,338,727개) + 노이즈 토픽 문서 제거

최종분석 댓글 수
502,004개

(사회 279,318개 + 정치 231,686개)

혐오유형 10가지

방법론

© 국민일보 온라인뉴스부 데이터랩

※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

※ 본 기획물은 정부광고 수수료로
조성된 언론진흥기금의 지원을 받았습니다.

we stop hate

국민일보 빅데이터 분석

※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

2021년 7월, 8월: 민노총 집회 강행, 8000명 기습시위, 전국노동자대회 개최

· 도심 집회 강행한 민주노총… 경찰, 방역법 위반 혐의 수사

2022년 3월 : 3월 9일 대선

· BBC·가디언 “한국 대선, 표 받으려 성차별 부추겨”

· 최악의 비호감 대선…두 후보 부인 모두 ‘대국민 사과’

· ‘이대남 尹’ ‘이대녀 李’…초접전 출구조사 20대는 확 갈렸다

· 여성의 날 尹 또 “여가부 폐지”…“나는 페미” 번복 논란도

2021년 7월 : 이준석 전 국민의힘 당대표 여가부 폐지 공식 선언, 안산 숏컷 논란, 쥴리 벽화 논란

· 이준석, 여가부 이어 통일부 폐지 주장…지지층 결집 한 수?

2022년 1월: 윤석열 여가부 폐지 게시물 게재

· “윤석열, 여가부 폐지 통했다”… 이대남 표심 ‘유턴’

2022년 3월 : 3월 9일 대선

· BBC·가디언 “한국 대선, 표 받으려 성차별 부추겨”

뉴스 댓글 분석 기법 Data Summary

총 댓글 수 121,143,526개

(사회 51,158,860개 + 정치 69,984,666개)

최종분석 댓글 수 502,004개

(사회 279,318개 + 정치 231,686개)

총 댓글 수 121,143,526개

(사회 51,158,860개 + 정치 69,984,666개)

필터 W

댓글이 20개 이상 달린 기사의 댓글

필터 W

댓글의 길이 3이상 300글자 이하인 댓글

필터 Y

댓글의 공감 + 비공감 수가 20 이상인 댓글

필터 Z

4,743,788개 (사회 2,405,061개 + 정치 2,338,727개) + 노이즈 토픽 문서 제거

최종분석 댓글 수 502,004개

(사회 279,318개 + 정치 231,686개)

혐오유형 10가지

방법론

© 국민일보 온라인뉴스부 데이터랩

※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.

2021년 7월, 8월: 민노총 집회 강행, 8000명 기습시위, 전국노동자대회 개최

2022년 3월 : 3월 9일 대선

2021년 7월 : 이준석 전 국민의힘 당대표 여가부 폐지 공식 선언, 안산 숏컷 논란, 쥴리 벽화 논란

2022년 1월: 윤석열 여가부 폐지 게시물 게재

2022년 3월 : 3월 9일 대선

뉴스 댓글 분석 기법
Data Summary

총 댓글 수
121,143,526개

최종분석 댓글 수
502,004개

총 댓글 수
121,143,526개

최종분석 댓글 수
502,004개

※ 본 기획물은 정부광고 수수료로
조성된 언론진흥기금의 지원을 받았습니다.