NeurIPS 논문에서 hallucinated citations가 터진 이유와 대응 체크리스트

AI/Trend

NeurIPS 논문에서 hallucinated citations가 터진 이유와 대응 체크리스트

Royzero 2026. 1. 25. 16:37

MYVOCA for Android

단어 암기를 쉽고 효과적으로 도와주는 어플리케이션입니다.

TL;DR

NeurIPS 2025(2025년 12월, 샌디에이고) 발표/채택 논문에서 hallucinated citations(존재하지 않거나 메타데이터가 맞지 않는 인용) 이 다수 확인됐습니다.
GPTZero는 채택 논문 전체를 스캔했고, 51편에서 100건의 가짜 인용을 "확인(confirmed)" 했다고 밝혔습니다.
NeurIPS의 공식 LLM 정책은 도구 사용을 허용하지만, 텍스트/그림/참고문헌까지 전부 저자 책임임을 명시합니다.
핵심은 "AI를 썼냐"가 아니라, 인용이 사실의 신뢰 경계(trust boundary) 라는 점입니다. 인용 검증을 자동화 파이프라인에 넣으면 재발 확률을 크게 낮출 수 있습니다.

본문

사건 요약: 무엇이 발견됐나
hallucinated citations 정의(포함/제외/오해)
숫자와 해석: 51편 vs 53편 “왜 다르나”
NeurIPS LLM 정책이 말하는 책임 경계
왜 리뷰에서 놓치나(프로세스 관점)
실무 대응: 저자/리뷰어/학회·저널 운영자 체크리스트
인용 검증 자동화: Crossref·Semantic Scholar·OpenAlex로 파이프라인 만들기
비교표: 데이터 소스/정확도/운영 포인트
트러블슈팅 3종
FAQ 5종
결론

사건 요약: 무엇이 발견됐나

NeurIPS 채택 논문에서 hallucinated citations 문제가 드러났습니다. GPTZero는 NeurIPS 채택 논문(총 4,841편)을 대상으로 점검했고, 51편에서 100건의 가짜 인용을 확인했다고 TechCrunch에 설명했습니다. ([TechCrunch][1])

이 이슈는 “탑 티어 AI 학회”라는 상징성 때문에 더 큽니다. AI 연구를 검증하는 최정점 리뷰 프로세스에도, AI가 만들어낸 허구 인용이 섞일 수 있다는 사실이 명확해졌기 때문입니다. ([TechCrunch][1])

Why it matters: 인용은 ‘근거를 따라가서 검증할 수 있는 링크’입니다. 링크가 허구가 되는 순간, 재현성·검증 가능성·신뢰도가 동시에 무너집니다. ([NeurIPS][2])

hallucinated citations 정의 (1문장/포함·제외/대표 오해)

1문장 정의: hallucinated citations는 실재하지 않거나, 저자·제목·연도·DOI·URL 등 핵심 메타데이터가 맞지 않아 추적/검증이 불가능한 참고문헌 인용입니다. ([GPTZero][4])
포함 범위:
- 존재하지 않는 논문·학회·저널을 “그럴듯하게” 만들어 적는 경우
- DOI/URL이 가짜이거나, DOI가 다른 논문으로 해석되는 경우 ([GPTZero][4])
제외 범위:
- 단순 오탈자(페이지/권/호) 수준이지만 DOI·제목·저자가 정확해 추적 가능한 경우
대표 오해 1개: “인용 하나쯤 틀려도 본문 내용이 맞으면 괜찮다”
- NeurIPS 이사회도 “인용 오류가 곧바로 내용 무효를 뜻하지는 않는다”는 취지로 언급했지만, 그렇다고 문제의 심각성이 사라지는 건 아닙니다. 인용은 ‘검증 경로’이기 때문입니다. ([The Register][5])

Why it matters: 인용은 “독자가 검증할 권리”를 보장합니다. 인용이 허구면, 해당 주장 전체가 검증 불능 상태로 떨어집니다. ([GPTZero][4])

숫자와 해석: 51편 vs 53편, 왜 다르나

보도마다 수치가 약간 다릅니다.

TechCrunch: 51편 / 100건(confirmed fake) ([TechCrunch][1])
Fortune: 최소 53편, “수백 건” 표현도 등장 ([Fortune][6])

이 차이는 보통 아래 중 하나로 정리됩니다.

정의 차이: “확인(confirmed)” 기준(완전 가짜 vs 불일치/의심 포함)
집계 시점 차이: 기사 작성 시점에 GPTZero 목록/검증 결과가 갱신됨

Why it matters: 숫자 자체보다 중요한 건 프로세스 결함이 실재한다는 점입니다. “소수”라도, 최정점 학회에서 발생했다는 사실이 운영 개선을 강제합니다. ([TechCrunch][1])

NeurIPS LLM 정책이 말하는 책임 경계

NeurIPS는 LLM 사용을 원칙적으로 허용합니다. 대신, 저자가 텍스트·그림·참고문헌까지 전체 책임을 진다고 못 박습니다. ([NeurIPS][2])
또한 LLM 정책 FAQ에서 “도구를 쓸 수 있으나, 방법론에 포함될 경우 명확히 기술”하는 식의 가이드를 제공합니다. ([NeurIPS][2])

여기서 결론은 간단합니다.

“AI가 써줬다”는 변명이 통하지 않습니다.
특히 참고문헌은 자동 생성(BibTeX 생성 포함) 자체가 리스크입니다. NeurIPS 이사회도 BibTeX 생성 같은 케이스를 예로 들었습니다. ([The Register][5])

Why it matters: 정책은 “허용/금지”가 아니라 책임을 어디에 두는지가 핵심입니다. 지금은 책임이 저자에게 있으니, 저자 측 자동 검증이 필수입니다. ([NeurIPS][2])

왜 리뷰에서 놓치나 (프로세스 관점)

리뷰어가 본문 기여(아이디어/실험/증명/결과)에 집중할수록 참고문헌 검증은 뒤로 밀립니다. 동시에 대형 학회는 투입되는 리뷰 리소스가 한계에 부딪힙니다. 이런 구조적 압박은 과학 출판 전반에서 이미 문제로 지적됩니다. ([The Atlantic][7])

또 다른 축은 “도구 사용의 편의성”입니다. 논문 작성 도중 LLM에게 “관련 연구 10개 + BibTeX”를 시키는 순간, 검증을 생략하면 허구 인용이 그대로 들어갑니다(실제 사례가 GPTZero 공개 목록에 다수 포함). ([GPTZero][4])

Why it matters: 리뷰 프로세스만으로는 한계가 명확합니다. 제출 전(pre-submit) 자동 검증이 가장 비용 대비 효과가 큽니다. ([www.crossref.org][3])

실무 대응 체크리스트 (저자/리뷰어/운영자)

1) 저자(Authors): “제출 전 10분 검증”을 표준화

참고문헌 전체를 대상으로 (a) DOI 해석 가능 여부 (b) 제목/저자 매칭 (c) URL 유효성을 자동 체크
DOI가 없다면 Crossref/ OpenAlex / Semantic Scholar 중 최소 2개에서 제목 검색으로 실재 확인 ([www.crossref.org][3])
LLM이 생성한 BibTeX는 원문(출판사/프리프린트/DB)에서 다시 내려받아 교체
“후보 인용 리스트”는 LLM이 만들게 하더라도, 최종 채택은 사람이 원문 확인 후 확정

Why it matters: 저자 단계에서 걸러내면, 학회·저널 전체 비용(리뷰/편집/신뢰 손실)을 가장 싸게 줄입니다. ([NeurIPS][2])

2) 리뷰어(Reviewers): “샘플링 검증” 룰

논문당 전수 검증이 어렵다면, 핵심 주장에 직접 연결된 인용 5개만 샘플링
제목/저자/DOI 3요소 중 1개라도 불일치 시 “수정 요구”를 명시

Why it matters: 샘플링만으로도 억지로 만들어낸 허구 인용의 상당수를 흔들 수 있습니다. ([GPTZero][4])

3) 학회·저널 운영자(Program Chairs/Editors): “게이트”를 시스템으로 만든다

최종 카메라 레디 업로드 시점에 레퍼런스 자동 검증(Reference lint) 을 통과해야 제출 완료
정책은 ICLR처럼 “중요한 LLM 사용은 별도 섹션에 공개”를 요구할 수 있고 ([ICLR][8])
리뷰 프로세스에서 LLM 사용을 금지하는 CVPR 같은 접근도 존재합니다(특히 기밀/저작권/프라이버시 이유). ([CVPR][9])

Why it matters: 규정만으로는 실행력이 약합니다. “제출 게이트”로 만들면, 품질 기준이 자동으로 강제됩니다. ([CVPR][9])

인용 검증 자동화 파이프라인 (현실적인 구성)

아래는 “논문 제출/보고서 배포/사내 리서치 위키” 어디든 그대로 이식 가능한 최소 구성입니다.

아키텍처(요약)

BibTeX/References 추출
DOI가 있으면 DOI 해석(doi.org) + Crossref 메타데이터 대조
DOI가 없으면 제목으로 Crossref + Semantic Scholar(OpenAlex 추가) 검색
불일치/미검색 항목을 “수정 필요 리스트”로 출력

Crossref REST API: 메타데이터 조회(works) ([www.crossref.org][3])
Semantic Scholar API: 논문 메타/참조 관계 탐색 ([Semantic Scholar][10])
OpenAlex: works 엔티티 기반으로 참조/피인용 연결 ([OpenAlex][11])
DOI 해석/리다이렉션: doi.org ([DOI][12])

Why it matters: “검증 가능한 DB”를 근거로 자동 체크하면, LLM이 만든 그럴듯한 가짜가 바로 튀어나옵니다. ([www.crossref.org][3])

예시 코드 (Python, 최소 동작)

import re
import requests

CROSSREF = "https://api.crossref.org/works"
S2_SEARCH = "https://api.semanticscholar.org/graph/v1/paper/search"

def normalize(s: str) -> str:
    return re.sub(r"\s+", " ", (s or "").strip().lower())

def crossref_by_doi(doi: str):
    r = requests.get(f"{CROSSREF}/{doi}", timeout=20)
    if r.status_code != 200:
        return None
    return r.json().get("message")

def crossref_search_by_title(title: str):
    params = {"query.title": title, "rows": 3}
    r = requests.get(CROSSREF, params=params, timeout=20)
    if r.status_code != 200:
        return []
    return r.json().get("message", {}).get("items", [])

def s2_search_by_title(title: str):
    # 일부 엔드포인트는 필드 선택이 가능하며, 정책/쿼터를 준수해야 합니다.
    params = {"query": title, "limit": 3, "fields": "title,authors,year,venue,externalIds"}
    r = requests.get(S2_SEARCH, params=params, timeout=20)
    if r.status_code != 200:
        return []
    return r.json().get("data", [])

def verify_reference(ref):
    """
    ref 예시:
      {"title": "...", "doi": "..."}  또는  {"title": "..."}
    """
    title = ref.get("title", "")
    doi = ref.get("doi")

    if doi:
        m = crossref_by_doi(doi)
        if not m:
            return "FAIL: DOI not found in Crossref"
        cr_title = (m.get("title") or [""])[0]
        if normalize(cr_title) != normalize(title):
            return f"FAIL: title mismatch (Crossref='{cr_title}')"
        return "OK"

    # DOI가 없으면 제목으로 교차검증(최소 2개 DB)
    cr_hits = crossref_search_by_title(title)
    s2_hits = s2_search_by_title(title)

    if not cr_hits or not s2_hits:
        return "FAIL: title not found in Crossref/Semantic Scholar"
    return "OK"

refs = [
    {"title": "Attention Is All You Need", "doi": "10.48550/arXiv.1706.03762"},
    {"title": "Some made-up paper title that should not exist"},
]

for r in refs:
    print(r["title"], "=>", verify_reference(r))

비교표: 검증 데이터 소스 선택 가이드

소스	강점	약점/주의	추천 용도
Crossref	DOI 중심 메타데이터 조회에 강함	DOI/등록 범위 밖 콘텐츠는 누락 가능	DOI 기반 정합성 체크 1순위 ([www.crossref.org][3])
Semantic Scholar	학술 그래프(저자/논문/피인용) 탐색	쿼터/필드 선택 등 API 운영 고려	제목 기반 실재 검증, 보조 근거 ([Semantic Scholar][10])
OpenAlex	참조/피인용 연결 구조가 명확	API 키(무료) 필요	대량 검증/그래프 분석 ([OpenAlex][11])
doi.org	DOI 해석/리다이렉션 표준	DOI가 없는 항목은 불가	DOI 유효성 0차 게이트 ([DOI][12])

Why it matters: 한 DB만 쓰면 “누락=가짜”로 오판할 수 있습니다. 최소 2개 소스로 교차검증하면 실무 정확도가 올라갑니다. ([www.crossref.org][3])

트러블슈팅 (증상 → 원인 → 해결) 3종

1) 증상: DOI는 있는데, DOI가 가리키는 논문이 전혀 다름

원인: LLM이 “그럴듯한 DOI”를 만들어냈거나, 다른 논문의 DOI를 섞음 ([GPTZero][4])
해결: doi.org로 DOI 해석 후 Crossref 메타데이터(제목/저자/연도) 대조 → BibTeX를 원문에서 재수집 ([www.crossref.org][3])

2) 증상: 제목은 맞는 듯한데, 저자/연도/학회가 계속 안 맞음

원인: 실제 논문 여러 개를 “혼합”하거나 일부만 바꿔서 생성 ([GPTZero][4])
해결: 제목으로 Crossref + Semantic Scholar 동시 검색 → 가장 일치도가 높은 레코드로 교체 ([www.crossref.org][3])

3) 증상: URL이 깨져 있고, arXiv ID도 다른 문서로 연결됨

원인: placeholder/비어 있는 참조를 그대로 둔 채 제출 ([GPTZero][4])
해결: arXiv/출판사 원문에서 링크 재확인, “To appear” 같은 문구는 최종본에서 제거

Why it matters: 이 3가지만 잡아도 “허구 인용의 전형” 대부분을 커버합니다. ([GPTZero][4])

FAQ

Q1. 이게 NeurIPS만의 문제인가요?

아닙니다. 과학 출판 전반이 AI로 인한 투고/검증 부담 증가를 겪고 있다는 지적이 있습니다. ([The Atlantic][7])

Q2. 인용 오류가 있으면 논문 내용은 무효인가요?

NeurIPS 이사회는 “인용 오류가 곧바로 내용 무효를 뜻하지는 않는다”는 취지로 언급했습니다. 다만, 검증 경로가 깨지면 신뢰는 크게 손상됩니다. ([The Register][5])

Q3. LLM 사용을 전면 금지하면 해결되나요?

학회마다 접근이 다릅니다. 예를 들어 CVPR 2026은 리뷰 과정에서 LLM 사용을 금지합니다(기밀/데이터 보존 문제 포함). 반면 ICLR 2026은 사용을 허용하되 “중요한 사용은 공개”를 요구합니다. ([CVPR][9])

Q4. 자동 검증에서 “검색 안 됨”이면 무조건 가짜인가요?

아닙니다. DB 커버리지 차이가 있습니다. 그래서 최소 2개 DB 교차검증이 필요합니다. ([www.crossref.org][3])

Q5. 가장 현실적인 최소 규칙 1개만 고르라면?

“제출 전, 참고문헌 전체를 DOI/제목 기반으로 자동 검증하고 FAIL 리스트를 0으로 만든다”입니다. NeurIPS 정책이 책임을 저자에게 두고 있어서 더 그렇습니다. ([NeurIPS][2])

실무 체크리스트 2종

배포 전(제출 전) 체크리스트

참고문헌 전체에 대해 DOI 해석(doi.org) 성공 여부 확인 ([DOI][12])
DOI가 없는 항목은 Crossref + Semantic Scholar에서 제목 검색으로 실재 확인 ([www.crossref.org][3])
BibTeX/서지정보는 원문(출판사/프리프린트/DB)에서 재수집
“To appear / URL to be updated” 같은 placeholder 제거 ([GPTZero][4])
LLM 사용이 방법론에 포함되면 NeurIPS 정책에 맞춰 기술 ([NeurIPS][2])

운영 중(카메라레디/발행 후) 체크리스트

레퍼런스 lint를 CI에 넣고, FAIL이면 빌드 실패 처리
발견된 오류는 errata/수정본으로 빠르게 반영
팀 표준: “LLM은 후보 리스트 생성까지만, 최종 인용 확정은 사람”을 문서화

Why it matters: 체크리스트를 “개인의 주의”가 아니라 “시스템”으로 만들면, 팀이 커져도 품질이 유지됩니다. ([NeurIPS][2])

결론 (요약 정리)

NeurIPS 논문에서 hallucinated citations가 확인됐고, 이는 리뷰만으로는 참고문헌 품질을 보장하기 어렵다는 신호입니다. ([TechCrunch][1])
NeurIPS 정책은 LLM 사용을 허용하지만, 참고문헌까지 전부 저자 책임이라고 명시합니다. ([NeurIPS][2])
해결책은 단순합니다. 제출 전 자동 검증(doi.org + Crossref + Semantic Scholar/OpenAlex) 을 게이트로 만들면 됩니다. ([www.crossref.org][3])

References

Irony alert: Hallucinated citations found in papers from NeurIPS, the prestigious AI conference | TechCrunch | 2026-01-21 | https://techcrunch.com/2026/01/21/irony-alert-hallucinated-citations-found-in-papers-from-neurips-the-prestigious-ai-conference/
GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers | GPTZero | 2026-01-?? | https://gptzero.me/news/neurips/
LLM Policy | NeurIPS | 2025-??-?? | https://neurips.cc/Conferences/2025/LLM
Call For Papers 2025 (LLM policy link 포함) | NeurIPS | 2025-??-?? | https://neurips.cc/Conferences/2025/CallForPapers
AI conference's papers contaminated by AI hallucinations | The Register | 2026-01-22 | https://www.theregister.com/2026/01/22/neurips_papers_contaiminated_ai_hallucinations/
NeurIPS research papers contained 100+ AI-hallucinated citations, new report claims | Fortune | 2026-01-21 | https://fortune.com/2026/01/21/neurips-ai-conferences-research-papers-hallucinations/
Science Is Drowning in AI Slop | The Atlantic | 2026-01-?? | https://www.theatlantic.com/science/2026/01/ai-slop-science-publishing/685704/
Documentation - Metadata Retrieval - REST API | Crossref | 2020-04-08 | https://www.crossref.org/documentation/retrieve-metadata/rest-api/
Semantic Scholar Academic Graph API | Semantic Scholar | 2026-??-?? | https://www.semanticscholar.org/product/api
Works | OpenAlex technical documentation | OpenAlex | 2025-12-13 | https://docs.openalex.org/api-entities/works
DOI® Resolution Documentation | doi.org | 2026-??-?? | https://www.doi.org/the-identifier/resources/factsheets/doi-resolution-documentation

저작자표시 비영리 변경금지 (새창열림)

'AI > Trend' 카테고리의 다른 글

Gemini-powered Siri 보도 정리: 2월 공개설과 Apple Intelligence 영향 (3)	2026.01.26
Meta AI characters 청소년 채팅 중단: 무엇이 바뀌고, 기업은 뭘 준비해야 하나 (10)	2026.01.26
Google Discover AI 생성 헤드라인, ‘실험’이 아닌 ‘기능’으로 굳어졌다 (5)	2026.01.25
ChatGPT 광고 도입 논란: OpenAI 원칙과 Markey 질의, DeepMind CEO 비판까지 (3)	2026.01.23
AI 거버넌스를 실제 조직에 어떻게 설계해야 하는가 (3)	2026.01.22

현재글NeurIPS 논문에서 hallucinated citations가 터진 이유와 대응 체크리스트

로이팩토리, 리눅스, IOS, Android, ai, Kubernetes, DevOps, Java, 안드로이드, Kotlin, SwiftUI, programmers, linux, 코틀린, 자바, 코딩테스트, 프로그래머스, llm, 쿠버네티스, openAI,

Today :
Yesterday :

Royfactory