스마일게이트 AI센터, 악플과 혐오 발언 찾아내는 데이터셋 구축

기업과산업 인터넷·게임·콘텐츠

스마일게이트 AI센터, 악플과 혐오 발언 찾아내는 데이터셋 구축

안정문 기자 question@businesspost.co.kr 2022-01-20 17:46:54

확대 축소

▲ 스마일게이트 AI(인공지능)센터의 악플, 혐오 발언 데이터셋 설명 자료. <스마일게이트>

스마일게이트가 악플, 혐오 발언을 짚어낼 데이터셋(인공지능(AI)이 벤치마크할 수 있도록 관련성 있는 자료를 모은 것)을 구축했다.

스마일게이트 AI(인공지능)센터는 악플 및 혐오 발언 데이터셋을 깃허브 페이지를 통해 1월 중 공개한다고 20일 밝혔다.

스마일게이트 AI센터는 "최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고 사회적 문제로 이어질 수 있다는 점을 고려해 혐오 표현을 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터셋을 구축했다"며 "혐오 표현을 높은 정확도로 찾아낼 수 있는 기술을 고도화하겠다"고 설명했다.

이번 프로젝트는 지식 콘텐츠 스타트업 언더 스코어와 협업을 통해 이뤄졌다.

악플 및 혐오 발언 데이터는 2019년 1월1일부터 2021년 7월1일까지 포털 사이트, 커뮤니티 등 웹사이트의 게시글을 대상으로 수집됐다.

스마일게이트 AI센터는 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띠고 있는 특성을 감안했으며 약 55만 개의 데이터를 기반으로 1만 개의 데이터셋을 구축했다.

데이터셋 구축 과정에서 ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상으로 범주화했다.

스마일게이트 AI센터는 혐오 발언 분류를 위한 기준 모델을 공개했다.

스마일게이트 AI센터의 악플 및 혐오 발언 데이터셋은 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등 여러 분야에서 대상을 둘러싼 혐오 발언 여부를 파악할 수 있다.

한우진 스마일게이트 AI센터장은 “스마일게이트 AI센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 인공지능이 사회에 미치는 문제에 대해서 연구하고 있는 기관"이라며 "이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”고 말했다.

한 센터장은 “그 동안 진행해온 연구 결과와 노력들이 사회에 긍정적 기여를 할 수 있도록 다양한 노력을 시도하겠다"고 덧붙였다. [비즈니스포스트 안정문 기자]

안정문 기자의 다른기사보기

씨저널 C스토리

CJ제일제당 글로벌 약진 뒤 짙은 그늘, 윤석환 국내 식품 수익 추세적 악화와 바이오 약세에 '위기' 선언

2025년 진옥동의 신한금융 순이익 잘했지만 KB금융 비하면 못했다, 비은행 약진에도 은행 저성장으로 격차 더 커져

김보현 대우건설 작년 손실 '연말 빅배스'로 털고 올해 30%대 수주 증가 노려 : 성수4지구 도전은 잠시 삐끗

많이 본 기사

1	일론 머스크 '우주 공장' 건설도 추진, "달에서 인공위성 제조해 우주로 발사"
2	[단독] 네이버 사우디에서 '루키2'로 로봇배송 상용화 실험, 최수연 한국 도시 적용 ..
3	AI 특수에 메모리 이어 MLCC도 50% 폭등 전망, 장덕현 삼성전기 필리핀 신공장 ..
4	중국 SMIC 메모리반도체 호황 '착시현상' 경고, "물량 선점 경쟁이 수요 부풀릴 가..
5	[조원씨앤아이] 이재명 지지율 58.1%로 1.2%p 상승, 대구·경북도 50.8%