AI/Trend

NeurIPS 논문에서 hallucinated citations가 터진 이유와 대응 체크리스트

Royzero 2026. 1. 25. 16:37
반응형

TL;DR

  • NeurIPS 2025(2025년 12월, 샌디에이고) 발표/채택 논문에서 hallucinated citations(존재하지 않거나 메타데이터가 맞지 않는 인용) 이 다수 확인됐습니다.
  • GPTZero는 채택 논문 전체를 스캔했고, 51편에서 100건의 가짜 인용을 "확인(confirmed)" 했다고 밝혔습니다.
  • NeurIPS의 공식 LLM 정책은 도구 사용을 허용하지만, 텍스트/그림/참고문헌까지 전부 저자 책임임을 명시합니다.
  • 핵심은 "AI를 썼냐"가 아니라, 인용이 사실의 신뢰 경계(trust boundary) 라는 점입니다. 인용 검증을 자동화 파이프라인에 넣으면 재발 확률을 크게 낮출 수 있습니다.

본문

TOC

  • 사건 요약: 무엇이 발견됐나
  • hallucinated citations 정의(포함/제외/오해)
  • 숫자와 해석: 51편 vs 53편 “왜 다르나”
  • NeurIPS LLM 정책이 말하는 책임 경계
  • 왜 리뷰에서 놓치나(프로세스 관점)
  • 실무 대응: 저자/리뷰어/학회·저널 운영자 체크리스트
  • 인용 검증 자동화: Crossref·Semantic Scholar·OpenAlex로 파이프라인 만들기
  • 비교표: 데이터 소스/정확도/운영 포인트
  • 트러블슈팅 3종
  • FAQ 5종
  • 결론

사건 요약: 무엇이 발견됐나

NeurIPS 채택 논문에서 hallucinated citations 문제가 드러났습니다. GPTZero는 NeurIPS 채택 논문(총 4,841편)을 대상으로 점검했고, 51편에서 100건의 가짜 인용을 확인했다고 TechCrunch에 설명했습니다. ([TechCrunch][1])

이 이슈는 “탑 티어 AI 학회”라는 상징성 때문에 더 큽니다. AI 연구를 검증하는 최정점 리뷰 프로세스에도, AI가 만들어낸 허구 인용이 섞일 수 있다는 사실이 명확해졌기 때문입니다. ([TechCrunch][1])

Why it matters: 인용은 ‘근거를 따라가서 검증할 수 있는 링크’입니다. 링크가 허구가 되는 순간, 재현성·검증 가능성·신뢰도가 동시에 무너집니다. ([NeurIPS][2])


hallucinated citations 정의 (1문장/포함·제외/대표 오해)

  • 1문장 정의: hallucinated citations는 실재하지 않거나, 저자·제목·연도·DOI·URL 등 핵심 메타데이터가 맞지 않아 추적/검증이 불가능한 참고문헌 인용입니다. ([GPTZero][4])

  • 포함 범위:

    • 존재하지 않는 논문·학회·저널을 “그럴듯하게” 만들어 적는 경우
    • DOI/URL이 가짜이거나, DOI가 다른 논문으로 해석되는 경우 ([GPTZero][4])
  • 제외 범위:

    • 단순 오탈자(페이지/권/호) 수준이지만 DOI·제목·저자가 정확해 추적 가능한 경우
  • 대표 오해 1개: “인용 하나쯤 틀려도 본문 내용이 맞으면 괜찮다”

    • NeurIPS 이사회도 “인용 오류가 곧바로 내용 무효를 뜻하지는 않는다”는 취지로 언급했지만, 그렇다고 문제의 심각성이 사라지는 건 아닙니다. 인용은 ‘검증 경로’이기 때문입니다. ([The Register][5])

Why it matters: 인용은 “독자가 검증할 권리”를 보장합니다. 인용이 허구면, 해당 주장 전체가 검증 불능 상태로 떨어집니다. ([GPTZero][4])


숫자와 해석: 51편 vs 53편, 왜 다르나

보도마다 수치가 약간 다릅니다.

  • TechCrunch: 51편 / 100건(confirmed fake) ([TechCrunch][1])
  • Fortune: 최소 53편, “수백 건” 표현도 등장 ([Fortune][6])

이 차이는 보통 아래 중 하나로 정리됩니다.

  • 정의 차이: “확인(confirmed)” 기준(완전 가짜 vs 불일치/의심 포함)
  • 집계 시점 차이: 기사 작성 시점에 GPTZero 목록/검증 결과가 갱신됨

Why it matters: 숫자 자체보다 중요한 건 프로세스 결함이 실재한다는 점입니다. “소수”라도, 최정점 학회에서 발생했다는 사실이 운영 개선을 강제합니다. ([TechCrunch][1])


NeurIPS LLM 정책이 말하는 책임 경계

NeurIPS는 LLM 사용을 원칙적으로 허용합니다. 대신, 저자가 텍스트·그림·참고문헌까지 전체 책임을 진다고 못 박습니다. ([NeurIPS][2])
또한 LLM 정책 FAQ에서 “도구를 쓸 수 있으나, 방법론에 포함될 경우 명확히 기술”하는 식의 가이드를 제공합니다. ([NeurIPS][2])

여기서 결론은 간단합니다.

  • “AI가 써줬다”는 변명이 통하지 않습니다.
  • 특히 참고문헌은 자동 생성(BibTeX 생성 포함) 자체가 리스크입니다. NeurIPS 이사회도 BibTeX 생성 같은 케이스를 예로 들었습니다. ([The Register][5])

Why it matters: 정책은 “허용/금지”가 아니라 책임을 어디에 두는지가 핵심입니다. 지금은 책임이 저자에게 있으니, 저자 측 자동 검증이 필수입니다. ([NeurIPS][2])


왜 리뷰에서 놓치나 (프로세스 관점)

리뷰어가 본문 기여(아이디어/실험/증명/결과)에 집중할수록 참고문헌 검증은 뒤로 밀립니다. 동시에 대형 학회는 투입되는 리뷰 리소스가 한계에 부딪힙니다. 이런 구조적 압박은 과학 출판 전반에서 이미 문제로 지적됩니다. ([The Atlantic][7])

또 다른 축은 “도구 사용의 편의성”입니다. 논문 작성 도중 LLM에게 “관련 연구 10개 + BibTeX”를 시키는 순간, 검증을 생략하면 허구 인용이 그대로 들어갑니다(실제 사례가 GPTZero 공개 목록에 다수 포함). ([GPTZero][4])

Why it matters: 리뷰 프로세스만으로는 한계가 명확합니다. 제출 전(pre-submit) 자동 검증이 가장 비용 대비 효과가 큽니다. ([www.crossref.org][3])


실무 대응 체크리스트 (저자/리뷰어/운영자)

1) 저자(Authors): “제출 전 10분 검증”을 표준화

  • 참고문헌 전체를 대상으로 (a) DOI 해석 가능 여부 (b) 제목/저자 매칭 (c) URL 유효성을 자동 체크
  • DOI가 없다면 Crossref/ OpenAlex / Semantic Scholar 중 최소 2개에서 제목 검색으로 실재 확인 ([www.crossref.org][3])
  • LLM이 생성한 BibTeX는 원문(출판사/프리프린트/DB)에서 다시 내려받아 교체
  • “후보 인용 리스트”는 LLM이 만들게 하더라도, 최종 채택은 사람이 원문 확인 후 확정

Why it matters: 저자 단계에서 걸러내면, 학회·저널 전체 비용(리뷰/편집/신뢰 손실)을 가장 싸게 줄입니다. ([NeurIPS][2])

2) 리뷰어(Reviewers): “샘플링 검증” 룰

  • 논문당 전수 검증이 어렵다면, 핵심 주장에 직접 연결된 인용 5개만 샘플링
  • 제목/저자/DOI 3요소 중 1개라도 불일치 시 “수정 요구”를 명시

Why it matters: 샘플링만으로도 억지로 만들어낸 허구 인용의 상당수를 흔들 수 있습니다. ([GPTZero][4])

3) 학회·저널 운영자(Program Chairs/Editors): “게이트”를 시스템으로 만든다

  • 최종 카메라 레디 업로드 시점에 레퍼런스 자동 검증(Reference lint) 을 통과해야 제출 완료
  • 정책은 ICLR처럼 “중요한 LLM 사용은 별도 섹션에 공개”를 요구할 수 있고 ([ICLR][8])
  • 리뷰 프로세스에서 LLM 사용을 금지하는 CVPR 같은 접근도 존재합니다(특히 기밀/저작권/프라이버시 이유). ([CVPR][9])

Why it matters: 규정만으로는 실행력이 약합니다. “제출 게이트”로 만들면, 품질 기준이 자동으로 강제됩니다. ([CVPR][9])


인용 검증 자동화 파이프라인 (현실적인 구성)

아래는 “논문 제출/보고서 배포/사내 리서치 위키” 어디든 그대로 이식 가능한 최소 구성입니다.

아키텍처(요약)

  1. BibTeX/References 추출
  2. DOI가 있으면 DOI 해석(doi.org) + Crossref 메타데이터 대조
  3. DOI가 없으면 제목으로 Crossref + Semantic Scholar(OpenAlex 추가) 검색
  4. 불일치/미검색 항목을 “수정 필요 리스트”로 출력
  • Crossref REST API: 메타데이터 조회(works) ([www.crossref.org][3])
  • Semantic Scholar API: 논문 메타/참조 관계 탐색 ([Semantic Scholar][10])
  • OpenAlex: works 엔티티 기반으로 참조/피인용 연결 ([OpenAlex][11])
  • DOI 해석/리다이렉션: doi.org ([DOI][12])

Why it matters: “검증 가능한 DB”를 근거로 자동 체크하면, LLM이 만든 그럴듯한 가짜가 바로 튀어나옵니다. ([www.crossref.org][3])

예시 코드 (Python, 최소 동작)

import re
import requests

CROSSREF = "https://api.crossref.org/works"
S2_SEARCH = "https://api.semanticscholar.org/graph/v1/paper/search"

def normalize(s: str) -> str:
    return re.sub(r"\s+", " ", (s or "").strip().lower())

def crossref_by_doi(doi: str):
    r = requests.get(f"{CROSSREF}/{doi}", timeout=20)
    if r.status_code != 200:
        return None
    return r.json().get("message")

def crossref_search_by_title(title: str):
    params = {"query.title": title, "rows": 3}
    r = requests.get(CROSSREF, params=params, timeout=20)
    if r.status_code != 200:
        return []
    return r.json().get("message", {}).get("items", [])

def s2_search_by_title(title: str):
    # 일부 엔드포인트는 필드 선택이 가능하며, 정책/쿼터를 준수해야 합니다.
    params = {"query": title, "limit": 3, "fields": "title,authors,year,venue,externalIds"}
    r = requests.get(S2_SEARCH, params=params, timeout=20)
    if r.status_code != 200:
        return []
    return r.json().get("data", [])

def verify_reference(ref):
    """
    ref 예시:
      {"title": "...", "doi": "..."}  또는  {"title": "..."}
    """
    title = ref.get("title", "")
    doi = ref.get("doi")

    if doi:
        m = crossref_by_doi(doi)
        if not m:
            return "FAIL: DOI not found in Crossref"
        cr_title = (m.get("title") or [""])[0]
        if normalize(cr_title) != normalize(title):
            return f"FAIL: title mismatch (Crossref='{cr_title}')"
        return "OK"

    # DOI가 없으면 제목으로 교차검증(최소 2개 DB)
    cr_hits = crossref_search_by_title(title)
    s2_hits = s2_search_by_title(title)

    if not cr_hits or not s2_hits:
        return "FAIL: title not found in Crossref/Semantic Scholar"
    return "OK"

refs = [
    {"title": "Attention Is All You Need", "doi": "10.48550/arXiv.1706.03762"},
    {"title": "Some made-up paper title that should not exist"},
]

for r in refs:
    print(r["title"], "=>", verify_reference(r))

비교표: 검증 데이터 소스 선택 가이드

소스 강점 약점/주의 추천 용도
Crossref DOI 중심 메타데이터 조회에 강함 DOI/등록 범위 밖 콘텐츠는 누락 가능 DOI 기반 정합성 체크 1순위 ([www.crossref.org][3])
Semantic Scholar 학술 그래프(저자/논문/피인용) 탐색 쿼터/필드 선택 등 API 운영 고려 제목 기반 실재 검증, 보조 근거 ([Semantic Scholar][10])
OpenAlex 참조/피인용 연결 구조가 명확 API 키(무료) 필요 대량 검증/그래프 분석 ([OpenAlex][11])
doi.org DOI 해석/리다이렉션 표준 DOI가 없는 항목은 불가 DOI 유효성 0차 게이트 ([DOI][12])

Why it matters: 한 DB만 쓰면 “누락=가짜”로 오판할 수 있습니다. 최소 2개 소스로 교차검증하면 실무 정확도가 올라갑니다. ([www.crossref.org][3])


트러블슈팅 (증상 → 원인 → 해결) 3종

1) 증상: DOI는 있는데, DOI가 가리키는 논문이 전혀 다름

  • 원인: LLM이 “그럴듯한 DOI”를 만들어냈거나, 다른 논문의 DOI를 섞음 ([GPTZero][4])
  • 해결: doi.org로 DOI 해석 후 Crossref 메타데이터(제목/저자/연도) 대조 → BibTeX를 원문에서 재수집 ([www.crossref.org][3])

2) 증상: 제목은 맞는 듯한데, 저자/연도/학회가 계속 안 맞음

  • 원인: 실제 논문 여러 개를 “혼합”하거나 일부만 바꿔서 생성 ([GPTZero][4])
  • 해결: 제목으로 Crossref + Semantic Scholar 동시 검색 → 가장 일치도가 높은 레코드로 교체 ([www.crossref.org][3])

3) 증상: URL이 깨져 있고, arXiv ID도 다른 문서로 연결됨

  • 원인: placeholder/비어 있는 참조를 그대로 둔 채 제출 ([GPTZero][4])
  • 해결: arXiv/출판사 원문에서 링크 재확인, “To appear” 같은 문구는 최종본에서 제거

Why it matters: 이 3가지만 잡아도 “허구 인용의 전형” 대부분을 커버합니다. ([GPTZero][4])


FAQ

Q1. 이게 NeurIPS만의 문제인가요?

아닙니다. 과학 출판 전반이 AI로 인한 투고/검증 부담 증가를 겪고 있다는 지적이 있습니다. ([The Atlantic][7])

Q2. 인용 오류가 있으면 논문 내용은 무효인가요?

NeurIPS 이사회는 “인용 오류가 곧바로 내용 무효를 뜻하지는 않는다”는 취지로 언급했습니다. 다만, 검증 경로가 깨지면 신뢰는 크게 손상됩니다. ([The Register][5])

Q3. LLM 사용을 전면 금지하면 해결되나요?

학회마다 접근이 다릅니다. 예를 들어 CVPR 2026은 리뷰 과정에서 LLM 사용을 금지합니다(기밀/데이터 보존 문제 포함). 반면 ICLR 2026은 사용을 허용하되 “중요한 사용은 공개”를 요구합니다. ([CVPR][9])

Q4. 자동 검증에서 “검색 안 됨”이면 무조건 가짜인가요?

아닙니다. DB 커버리지 차이가 있습니다. 그래서 최소 2개 DB 교차검증이 필요합니다. ([www.crossref.org][3])

Q5. 가장 현실적인 최소 규칙 1개만 고르라면?

제출 전, 참고문헌 전체를 DOI/제목 기반으로 자동 검증하고 FAIL 리스트를 0으로 만든다”입니다. NeurIPS 정책이 책임을 저자에게 두고 있어서 더 그렇습니다. ([NeurIPS][2])


실무 체크리스트 2종

배포 전(제출 전) 체크리스트

  • 참고문헌 전체에 대해 DOI 해석(doi.org) 성공 여부 확인 ([DOI][12])
  • DOI가 없는 항목은 Crossref + Semantic Scholar에서 제목 검색으로 실재 확인 ([www.crossref.org][3])
  • BibTeX/서지정보는 원문(출판사/프리프린트/DB)에서 재수집
  • “To appear / URL to be updated” 같은 placeholder 제거 ([GPTZero][4])
  • LLM 사용이 방법론에 포함되면 NeurIPS 정책에 맞춰 기술 ([NeurIPS][2])

운영 중(카메라레디/발행 후) 체크리스트

  • 레퍼런스 lint를 CI에 넣고, FAIL이면 빌드 실패 처리
  • 발견된 오류는 errata/수정본으로 빠르게 반영
  • 팀 표준: “LLM은 후보 리스트 생성까지만, 최종 인용 확정은 사람”을 문서화

Why it matters: 체크리스트를 “개인의 주의”가 아니라 “시스템”으로 만들면, 팀이 커져도 품질이 유지됩니다. ([NeurIPS][2])


결론 (요약 정리)

  • NeurIPS 논문에서 hallucinated citations가 확인됐고, 이는 리뷰만으로는 참고문헌 품질을 보장하기 어렵다는 신호입니다. ([TechCrunch][1])
  • NeurIPS 정책은 LLM 사용을 허용하지만, 참고문헌까지 전부 저자 책임이라고 명시합니다. ([NeurIPS][2])
  • 해결책은 단순합니다. 제출 전 자동 검증(doi.org + Crossref + Semantic Scholar/OpenAlex) 을 게이트로 만들면 됩니다. ([www.crossref.org][3])

References

  • Irony alert: Hallucinated citations found in papers from NeurIPS, the prestigious AI conference | TechCrunch | 2026-01-21 | https://techcrunch.com/2026/01/21/irony-alert-hallucinated-citations-found-in-papers-from-neurips-the-prestigious-ai-conference/
  • GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers | GPTZero | 2026-01-?? | https://gptzero.me/news/neurips/
  • LLM Policy | NeurIPS | 2025-??-?? | https://neurips.cc/Conferences/2025/LLM
  • Call For Papers 2025 (LLM policy link 포함) | NeurIPS | 2025-??-?? | https://neurips.cc/Conferences/2025/CallForPapers
  • AI conference's papers contaminated by AI hallucinations | The Register | 2026-01-22 | https://www.theregister.com/2026/01/22/neurips_papers_contaiminated_ai_hallucinations/
  • NeurIPS research papers contained 100+ AI-hallucinated citations, new report claims | Fortune | 2026-01-21 | https://fortune.com/2026/01/21/neurips-ai-conferences-research-papers-hallucinations/
  • Science Is Drowning in AI Slop | The Atlantic | 2026-01-?? | https://www.theatlantic.com/science/2026/01/ai-slop-science-publishing/685704/
  • Documentation - Metadata Retrieval - REST API | Crossref | 2020-04-08 | https://www.crossref.org/documentation/retrieve-metadata/rest-api/
  • Semantic Scholar Academic Graph API | Semantic Scholar | 2026-??-?? | https://www.semanticscholar.org/product/api
  • Works | OpenAlex technical documentation | OpenAlex | 2025-12-13 | https://docs.openalex.org/api-entities/works
  • DOI® Resolution Documentation | doi.org | 2026-??-?? | https://www.doi.org/the-identifier/resources/factsheets/doi-resolution-documentation
반응형