Skip to content

Netpuri/netpuri_model

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

텍스트 필터링 모델

1. 배경

인터넷 접근성이 향상되면서 정보에 대한 접근이 쉬워졌으나, 부정적인 영향을 미칠 수 있는 정보도 많이 생성되고 있다.

특히, 디지털 격차로 인해 인터넷 활용 능력이 부족한 사람들은 이러한 정보에 더 큰 영향을 받을 수 있다.

이를 해결하기 위해 텍스트 필터링 모델을 개발하고자 하였다.

2. 데이터 수집 및 가공

2.1 데이터 타입 분류

  • 일반 0
  • 정치성 글 1
  • 성적인 글 2
  • 우울한 글 3 (슬픔)
  • 공격적인 글 4 (분노, 혐오)

2.2 초기 데이터셋 구성

2.3 데이터 추가 수집

3. 모델 학습

image image (1)
  • 결과 분석
    • 추가된 데이터로 인해 3번 클래스의 성능이 약간 향상되었으나, 여전히 1번(정치성 글)으로의 오분류가 많았다.
    • 그러나 사용성을 생각했을 때 해당이 없는 데이터를 오인식하는 것은 매우 불편하게 느껴질 것이라고 판단하였다.

4. Hazard Filter 모델

  • 모델 구성
    • 사용자가 정상 댓글을 유해 댓글로 오분류하는 경우 불편을 느낄 수 있다는 점을 고려하여, 1번 타입(정치성 글)을 제거하고 0(정상)과 1(유해)로 나머지 댓글을 분류하는 Hazard Filter 모델을 개발했다.
  • 학습 결과
    • Hazard Filter 모델은 정상 댓글을 최대한 정확하게 분류하면서 유해 댓글을 탐지하는 데 중점을 두어 학습되었다.
image (2)

5. 최종 구조

  • 1차 필터링: Hazard Filter 모델
    • 댓글의 유해성을 1차적으로 필터링
  • 2차 필터링: Type Filter 모델
    • Hazard Filter 모델에서 유해한 것으로 분류된 댓글을 다시 세부적으로 유형(일반, 정치, 성적, 우울, 공격적)으로 분류

이와 같은 구조로 최종 필터링 시스템을 구축하여 인터넷상에서 부정적인 영향을 미칠 수 있는 다양한 유형의 정보를 효율적으로 필터링할 수 있게 함.

이 프로젝트는 다음의 오픈소스 소프트웨어와 데이터셋을 사용하며, 각 라이브러리는 저작권 표시와 함께 해당 라이선스 조건에 따라 배포됩니다:

소프트웨어 라이브러리

  • Pandas (BSD 3-Clause License)

    Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team All rights reserved.

    BSD 3-Clause License

  • Scikit-learn (BSD 3-Clause License)

    Copyright (c) 2007-2024 The scikit-learn developers.

    BSD 3-Clause License

  • PyTorch (BSD 3-Clause License)

    Copyright (c) 2016- Facebook, Inc (Adam Paszke)

    BSD 3-Clause License

  • Transformers (Hugging Face) (Apache License 2.0)

    Copyright 2018- The Hugging Face team. All rights reserved.

    Apache License 2.0

  • Imbalanced-learn (MIT License)

    Copyright (c) 2014-2020 The imbalanced-learn developers. All rights reserved.

    MIT License

  • NLP-Aug (MIT License)

    Copyright (c) 2019 Edward Ma

    MIT License

  • KcELECTRA-base (Beomi) (MIT License)

    Copyright (c) 2021 Junbum Lee

    MIT License

API 서비스 및 데이터셋

  • YouTube API

    이 프로젝트는 YouTube API를 사용하며, YouTube API Services 이용 약관을 준수합니다. YouTube API Services Terms of Service

  • AIHub Datasets

    AIHub에서 제공하는 데이터셋을 사용하며, AIHub 이용 약관을 준수합니다. AIHub 이용 약관

  • Korean Hate Speech Dataset

    데이터셋 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. 각 데이터셋의 공식 홈페이지를 참고하여 이용 약관을 준수하십시오.

  • 한국어 감정 정보가 포함된 단발성 대화 데이터셋 (AIHub)

    AIHub 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. AIHub 이용 약관

  • 텍스트 윤리 검증 데이터셋 (AIHub)

    AIHub 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. AIHub 이용 약관

  • 감성 대화 말뭉치 (AIHub)

    AIHub 이용 약관에 따라 사용하며, 해당 약관을 준수합니다. AIHub 이용 약관

각 라이브러리의 라이선스와 고지 사항을 확인하고, 모든 저작권과 라이선스를 준수하여 소프트웨어를 배포하시기 바랍니다. 또한, 데이터셋과 API는 이용 약관에 따라 사용되므로, 이에 대한 이용 약관을 준수하십시오.

About

netpuri 텍스트 필터링 모델

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published