Cjournal
Cjournal
기업과산업  인터넷·게임·콘텐츠

스마일게이트 AI센터, 악플과 혐오 발언 찾아내는 데이터셋 구축

안정문 기자 question@businesspost.co.kr 2022-01-20 17:46:54
확대 축소
공유하기
페이스북 공유하기 X 공유하기 네이버 공유하기 카카오톡 공유하기 유튜브 공유하기 url 공유하기 인쇄하기

스마일게이트 AI센터, 악플과 혐오 발언 찾아내는 데이터셋 구축
▲ 스마일게이트 AI(인공지능)센터의 악플, 혐오 발언 데이터셋 설명 자료. <스마일게이트>
스마일게이트가 악플, 혐오 발언을 짚어낼 데이터셋(인공지능(AI)이 벤치마크할 수 있도록 관련성 있는 자료를 모은 것)을 구축했다.

스마일게이트 AI(인공지능)센터는 악플 및 혐오 발언 데이터셋을 깃허브 페이지를 통해 1월 중 공개한다고 20일 밝혔다. 

스마일게이트 AI센터는 "최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고 사회적 문제로 이어질 수 있다는 점을 고려해 혐오 표현을 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터셋을 구축했다"며 "혐오 표현을 높은 정확도로 찾아낼 수 있는 기술을 고도화하겠다"고 설명했다.

이번 프로젝트는 지식 콘텐츠 스타트업 언더 스코어와 협업을 통해 이뤄졌다. 

악플 및 혐오 발언 데이터는 2019년 1월1일부터 2021년 7월1일까지 포털 사이트, 커뮤니티 등 웹사이트의 게시글을 대상으로 수집됐다. 

스마일게이트 AI센터는 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띠고 있는 특성을 감안했으며 약 55만 개의 데이터를 기반으로 1만 개의 데이터셋을 구축했다.

데이터셋 구축 과정에서 ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상으로 범주화했다. 

스마일게이트 AI센터는 혐오 발언 분류를 위한 기준 모델을 공개했다.

스마일게이트 AI센터의 악플 및 혐오 발언 데이터셋은 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등 여러 분야에서 대상을 둘러싼 혐오 발언 여부를 파악할 수 있다.

한우진 스마일게이트 AI센터장은 “스마일게이트 AI센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 인공지능이 사회에 미치는 문제에 대해서 연구하고 있는 기관"이라며 "이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”고 말했다.

한 센터장은 “그 동안 진행해온 연구 결과와 노력들이 사회에 긍정적 기여를 할 수 있도록 다양한 노력을 시도하겠다"고 덧붙였다. [비즈니스포스트 안정문 기자]

최신기사

비트코인 시세 하락에도 '고래' 투자자 저가매수 지속, "강세장 복귀 가능"
하나증권 "디오 영업망 개편 및 구조조정 효과 발생, 구조적 성장을 위한 정상화 단계"
[조원씨앤아이] 이재명 지지율 52.3%, TK는 '긍정' 서울·PK는 '부정'이 더 높아
팔란티어 주가 '지나친 고평가' 분석, "타임머신 발명한 수준의 프리미엄"
LG전자 가전구독 모델 B2B로 확장, 상업용 스탠드에어컨 23평형 월 8만원대
안랩 블록체인 자회사, 간편결제진흥원·오픈에셋과 스테이블코인 사업 협력
[조원씨앤아이] 트럼프 '비호감' 58% vs. '호감' 23%, 보수층은 '호감' 44%
테슬라 로보택시 구글과 아마존에 '우위' 평가, "사업가치 9천억 달러" 분석
[조원씨앤아이] 국힘 당대표 적합도, 국힘 지지층에서 장동혁 35% vs. 김문수 33%
샤오미 "전기차 2027년 유럽 출시", 투자자 기대감에 주가 삼성전자 대비 고평가
Cjournal

댓글 (0)

  • - 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
  • - 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 댓글은 관련 법률에 의해 제재를 받을 수 있습니다.
  • - 타인에게 불쾌감을 주는 욕설 등 비하하는 단어가 내용에 포함되거나 인신공격성 글은 관리자의 판단에 의해 삭제 합니다.