주제 분류 프로젝트

주제 분류 프로젝트인 KLUE-Topic Classification benchmark는 뉴스의 헤드라인을 통해 그 뉴스가 어떤 topic을 갖는지를 분류해내는 task입니다. 각 문장 데이터에는 IT과학, 경제, 사회, 생활문화, 세계, 스포츠, 정치 중 하나가 라벨링되어 있습니다. 이번 task는 모델의 변경이 아닌 Data-Centric으로 오로지 데이터의 수정으로만 성능 향상을 이끌어냅니다.

평가 지표

Macro F1

KLUE Topic classification의 공식 리더보드와 동일한 평가 방법인 Macro F1을 사용합니다. 각 라벨별로 F1 score를 계산하고, 모든 label의 각 F1 score에 대한 평균을 계산합니다.

Data

아래와 같은 구조를 가지고 있습니다.

ID : 각 데이터 샘플의 고유번호
text : 분류의 대상이 되는 자연어 텍스트
target : 정수로 인코딩된 라벨
url : 해당 데이터 샘플의 뉴스 url
date : 해당 데이터 샘플의 뉴스가 작성된 날짜와 시간

팀 역할 및 실험 내용

이름	역할 및 실험 내용
김기호	• EDA • Data Augmentation
박상기	• Spell check • Cleanlab • Back Translation • AEDA
방신근	• Paper research
심재혁	• Crawling • Back Translation • Customized Cleanlab
황순열	• EDA • post-analysis • Data Augmentation(Mixup)
김건우	• Data Augmentation(RS,SR,RD,RI) • Data Filtering(부산대 맞춤법검사기) • Data Cleaning

Name		Name	Last commit message	Last commit date
Latest commit History 51 Commits
.github		.github
gunwoo		gunwoo
jaehyeoksim		jaehyeoksim
rlarlgh96		rlarlgh96
sanggi		sanggi
soonyear		soonyear
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

주제 분류 프로젝트

평가 지표

Macro F1

Data

팀 역할 및 실험 내용

About

Releases

Packages

Contributors 5

Languages

boostcampaitech6/level2-nlp-datacentric-nlp-05

Folders and files

Latest commit

History

Repository files navigation

주제 분류 프로젝트

평가 지표

Macro F1

Data

팀 역할 및 실험 내용

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Languages

Packages