기업과산업  인터넷·게임·콘텐츠

스마일게이트 AI센터, 악플과 혐오 발언 찾아내는 데이터셋 구축

안정문 기자 question@businesspost.co.kr 2022-01-20 17:46:54
확대 축소
공유하기
페이스북 공유하기 트위터 공유하기 네이버 공유하기 카카오톡 공유하기 카카오스토리 공유하기 유튜브 공유하기 url 공유하기 인쇄하기

스마일게이트 AI센터, 악플과 혐오 발언 찾아내는 데이터셋 구축
▲ 스마일게이트 AI(인공지능)센터의 악플, 혐오 발언 데이터셋 설명 자료. <스마일게이트>
스마일게이트가 악플, 혐오 발언을 짚어낼 데이터셋(인공지능(AI)이 벤치마크할 수 있도록 관련성 있는 자료를 모은 것)을 구축했다.

스마일게이트 AI(인공지능)센터는 악플 및 혐오 발언 데이터셋을 깃허브 페이지를 통해 1월 중 공개한다고 20일 밝혔다. 

스마일게이트 AI센터는 "최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고 사회적 문제로 이어질 수 있다는 점을 고려해 혐오 표현을 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터셋을 구축했다"며 "혐오 표현을 높은 정확도로 찾아낼 수 있는 기술을 고도화하겠다"고 설명했다.

이번 프로젝트는 지식 콘텐츠 스타트업 언더 스코어와 협업을 통해 이뤄졌다. 

악플 및 혐오 발언 데이터는 2019년 1월1일부터 2021년 7월1일까지 포털 사이트, 커뮤니티 등 웹사이트의 게시글을 대상으로 수집됐다. 

스마일게이트 AI센터는 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띠고 있는 특성을 감안했으며 약 55만 개의 데이터를 기반으로 1만 개의 데이터셋을 구축했다.

데이터셋 구축 과정에서 ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상으로 범주화했다. 

스마일게이트 AI센터는 혐오 발언 분류를 위한 기준 모델을 공개했다.

스마일게이트 AI센터의 악플 및 혐오 발언 데이터셋은 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등 여러 분야에서 대상을 둘러싼 혐오 발언 여부를 파악할 수 있다.

한우진 스마일게이트 AI센터장은 “스마일게이트 AI센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 인공지능이 사회에 미치는 문제에 대해서 연구하고 있는 기관"이라며 "이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”고 말했다.

한 센터장은 “그 동안 진행해온 연구 결과와 노력들이 사회에 긍정적 기여를 할 수 있도록 다양한 노력을 시도하겠다"고 덧붙였다. [비즈니스포스트 안정문 기자]

인기기사

마이크론 AI 메모리반도체 우위 자신, 128GB DDR5 서버용 D램 최초로 공급 김용원 기자
[조원씨앤아이] 차기 대선주자 적합도, 이재명 39.3% 한동훈 21.9% 조장우 기자
유바이오로직스 투자받은 팝바이오텍, 네이처에 에이즈 관련 연구 실어 장은파 기자
에코프로비엠, 미국 CAMX파워 음극재 기술 라이선스 획득 김호현 기자
한화오션 오스탈 인수 문제없다, 호주 국방부 장관 "오스탈은 민간기업" 김호현 기자
[미디어리서치] 윤석열 지지율 30.1%, 대선주자 진보-이재명 보수-한동훈 가장 지지 김대철 기자
이스타항공 재운항 1년, 아시아나항공 화물기 사업 인수전 완주할까 신재희 기자
태영건설 워크아웃 9부 능선 넘어, 윤세영 마곡·구미 사업장 실타래 풀기 전력 류수재 기자
전국지표조사 윤석열 지지율 27%, 국정 방향 ‘잘못됐다’ 60% 김대철 기자
한미약품 1분기 실적 순항 반가워, '쩐의 압박' 임종윤 어깨 한결 가벼워졌다 장은파 기자

댓글 (0)

  • - 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
  • - 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 댓글은 관련 법률에 의해 제재를 받을 수 있습니다.
  • - 타인에게 불쾌감을 주는 욕설 등 비하하는 단어가 내용에 포함되거나 인신공격성 글은 관리자의 판단에 의해 삭제 합니다.